免费发布

AI Infra Chat#01《DLRover:蚂蚁大模型训练弹性容错与自动优化》

Thu, 14 Sep 2023 19:00:00 GMT+08 ~ Thu, 14 Sep 2023 20:00:00 GMT+08
Limited 500
(Xian Shang Huo Dong)
AI Infra

Hide

Event Price
    Please select the order price

    第三方登录:

    More Details

    Event DetailsHide...

    DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。


    AI Infra Chat 第 1 期邀请到了蚂蚁集团技术专家、AI 系统工程师王勤龙跟大家分享 《DLRover:蚂蚁大模型训练弹性容错与自动优化》。

    1080-1920竖版-2.png



    直播主题与时间

    DLRover:蚂蚁大模型训练弹性容错与自动优化

    2023 年 9 月 14 日(下周四)

    19:00 - 20:00


    嘉宾简介

    王勤龙(花名:长凡)

    蚂蚁集团技术专家

    AI 系统工程师



    议题简介


    本次分享将介绍 DLRover 云上弹性容错的分布式训练架构,包括介绍 DLRover 的容错如何提高大规模分布式训练的稳定性和训练的自动优化。同时还会介绍 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛,提升训练性能和集群效能。


    听众收获


    • 了解 DLRover 项目及架构

    • 了解分布式训练弹性、容错和自动扩缩容的原理

    • 了解分布式训练自动调优的原理与实现




    Event Tags

    Recently Participation

    Perhaps you'd be interested in

    Question

    All Questions

    Haven't posted any questions yet, grab a sofa!

    WeChat Scan

    Share to WeChat→