收起
DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。
AI Infra Chat 第 1 期邀请到了蚂蚁集团技术专家、AI 系统工程师王勤龙跟大家分享 《DLRover:蚂蚁大模型训练弹性容错与自动优化》。
直播主题与时间
DLRover:蚂蚁大模型训练弹性容错与自动优化
2023 年 9 月 14 日(下周四) 19:00 - 20:00
嘉宾简介 王勤龙(花名:长凡) 蚂蚁集团技术专家 AI 系统工程师
议题简介
本次分享将介绍 DLRover 云上弹性容错的分布式训练架构,包括介绍 DLRover 的容错如何提高大规模分布式训练的稳定性和训练的自动优化。同时还会介绍 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛,提升训练性能和集群效能。
听众收获
了解 DLRover 项目及架构
了解分布式训练弹性、容错和自动扩缩容的原理
了解分布式训练自动调优的原理与实现