|
|
fcs 文章精要:上海交通大学过敏意、冷静文等——baft:感知气泡时间的分布式训练容错框架 |
|
论文标题:
期刊:
作者:runzhe chen, guandong lu, yakai wang, rui zhang, zheng hu, yanming miao, zhifang cai, jingwen leng, minyi guo
发表时间:15 jan 2025
doi:
微信链接:
引用格式:
runzhe chen, guandong lu, yakai wang, rui zhang, zheng hu, yanming miao, zhifang cai, jingwen leng, minyi guo. baft: bubble-aware fault-tolerant framework for distributed dnn training with hybrid parallelism. front. comput. sci., 2025, 19(1): 191102
阅读原文:
问题概述
针对分布式训练中以往的容错框架开销大且影响训练效率的问题,上海交通大学过敏意教授团队撰写了该研究论文。
文章旨在提出面向分布式训练场景,一种利用训练过程中由数据依赖等原因产生的系统资源空闲来掩盖检查点记录开销,从而减少容错功能本身对训练效率的影响的方法。
技术步骤
通过预先检测分布式训练过程中系统资源空闲的分布情况,针对每段空闲时间合理分配检查点备份任务,从而形成训练任务与检查点备份任务的调度方案,再在训练过程中进行异步式的检查点备份与传输。从而实现低开小的检查点备份机制。
实验结果
在分布式训练集群上的进行的多种配置的训练测试结果表明,本项研究所实现的容错框架能够有效应用于分布式训练场景。并且由于检查点记录而引入的开销仅为无容错机制的情况下的1%,优于其他同类的容错框架。
文章推荐
frontiers of computer science
frontiers of computer science (fcs)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、springernature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 ae 团队由国内外知名学者及优秀青年学者组成。本刊被 sci、ei、dblp、inspec、scopus 和中国科学引文数据库(cscd)核心库等收录,为 ccf 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;入选“中国科技期刊卓越行动计划项目”。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被sci收录,其他也被a&hci、ei、medline或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负米乐app官网下载的版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。