回到顶部

AI Infra Chat#01《DLRover:蚂蚁大模型训练弹性容错与自动优化》

2023年9月14日 19:00 ~ 2023年9月14日 20:00
限额500人
线上活动

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。


    AI Infra Chat 第 1 期邀请到了蚂蚁集团技术专家、AI 系统工程师王勤龙跟大家分享 《DLRover:蚂蚁大模型训练弹性容错与自动优化》。

    1080-1920竖版-2.png



    直播主题与时间

    DLRover:蚂蚁大模型训练弹性容错与自动优化

    2023 年 9 月 14 日(下周四)

    19:00 - 20:00


    嘉宾简介

    王勤龙(花名:长凡)

    蚂蚁集团技术专家

    AI 系统工程师



    议题简介


    本次分享将介绍 DLRover 云上弹性容错的分布式训练架构,包括介绍 DLRover 的容错如何提高大规模分布式训练的稳定性和训练的自动优化。同时还会介绍 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛,提升训练性能和集群效能。


    听众收获


    • 了解 DLRover 项目及架构

    • 了解分布式训练弹性、容错和自动扩缩容的原理

    • 了解分布式训练自动调优的原理与实现




    举报活动

    活动标签

    最近参与

    • Vinivin
      报名

      (1年前)

    • 今天
      报名

      (1年前)

    • 梦辉
      报名

      (1年前)

    • yuzf
      报名

      (1年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    微信扫一扫

    分享此活动到朋友圈

    免费发布