24小时咨询热线

054-776143546

新闻动态

您的位置:主页 > 新闻动态 > 行业新闻 >

229页CMU博士张昊结业论文宣布,探索机械学习并行化的秘密_开云下载

发布日期:2023-10-13 00:40浏览次数:
本文摘要:机械之心报道机械之心编辑部CMU 机械人研究所张昊(Hao Zhang)博士论文新鲜出炉,主要围绕着机械学习并行化的自适应、可组合与自动化问题展开。随着近年来,机械学习领域的创新不停加速,SysML 的研究者已经建立了在多个设备或盘算节点上并行机械学习训练的算法和系统。机械学习模型在结构上变得越来越庞大,许多系统都试图提供全面的性能。尤其是,机械学习扩展通常会低估从一个适当的漫衍计谋映射到模型所需要的知识与时间。

开云下载

机械之心报道机械之心编辑部CMU 机械人研究所张昊(Hao Zhang)博士论文新鲜出炉,主要围绕着机械学习并行化的自适应、可组合与自动化问题展开。随着近年来,机械学习领域的创新不停加速,SysML 的研究者已经建立了在多个设备或盘算节点上并行机械学习训练的算法和系统。机械学习模型在结构上变得越来越庞大,许多系统都试图提供全面的性能。尤其是,机械学习扩展通常会低估从一个适当的漫衍计谋映射到模型所需要的知识与时间。

此外,将并行训练系统应用于庞大模型更是增加了很是规的开发成本,且性能通常低于预期。克日,CMU 机械人研究所博士张昊宣布了自己的博士学位论文《机械学习并行化的自适应、可组合与自动化》,旨在找出并解决并行 ML 技术和系统实现在可用性和性能方面的研究挑战。详细而言,该论文从可编程性、并行化表现、性能优化、系统架构和自动并行化技术等几方面临漫衍式并行 ML 展开了研究,并认为漫衍式并行机械学习可以同时实现简练性和高效性。此外,该论文讲明,并行 ML 的性能可以通过生成自适应 ML 模型结构和集群资源范式的计谋实现大幅度提升,同时通过将「如何并行化」这一焦点问题形式化为端到端优化目的以及构建可组合漫衍式 ML 系统来自动优化这类自适应、自界说计谋,进而可以解决可用性挑战。

论文链接:https://www.cs.cmu.edu/~hzhang2/files/hao_zhang_doctoral_dissertation.pdf机械之心对该论文的焦点内容举行了简要先容,感兴趣的读者可以阅读原论文。论文内容先容这篇论文主要由三部门组成,如下图所示,第 1 部门(第三章 - 第五章):在单个机械学习并行化层面,使用自适应并行化明白和优化并行机械学习性能;第 2 部门(第六章 - 第七章):为机械学习并行开发统一的表现和可组合系统;第 3 部门(第八章):机械学习并行化的自动化。

论文结构概览论文第一部门提出了一个简朴的设计原则自适应并行(adaptive parallelism),凭据模型构建要素(好比层)的特定 ML 属性,将合适的并行化技术应用于模型组成要素中。作者以 BERT 为例,总结出了实现这种自适应的基本原理和三个焦点观点,划分是子模型计谋组合、多个并行化方面的系统优化和资源感知。

此外,作者推导出了一系列优化和实现方法,从差别层面去提升 ML 并行化。研究效果讲明其显著提高了 ML 训练在集群上的效率和可扩展性。第二部门对这种方法举行了概述,而且面向机械学习并行化任务的两个常见范式:单节点动态批处置惩罚和漫衍式机械学习并行,作者将机械学习的并行化表述为端到端的优化问题,并寻找其自动化的解决方法。

作者提出了原则表征来表现两类机械学习并行,以及可组合的系统架构 Cavs 与 AutoDist。它们能够快速组合不行见模型的并行化计谋,提升并行化体现,并简化并行机械学习法式。Facebook AI 提出的 DETR 的架构图在此基础上,论文第三部门提出一个自动并行化框架 AutoSync,用于自动优化数据并行漫衍训练中的同步计谋。

它实现了「开箱即用」的高性能,可以通过提出的表征举行空间导航,并自动识别同步计谋,这些计谋比现有的手工优化系统的速度提高了 1.2-1.6 倍,降低了漫衍式 ML 的技术障碍,并资助更大规模的用户会见它。总结来说,这篇论文提出的相关技术和系统验证了漫衍式情况下面向大规模机械学习训练的端到端编译系统的观点与原型实现。

AutoSync 计谋的自动优化流程算法AutoSync 中的计谋空间包罗了现有系统中的许多高级计谋语言模型的漫衍式预训练示例预训练语言表征已成为 NLP 系统中最普遍、最关键的部门。使用与任务无关的语言模型框架,可以对从 web 抓取的未标志文本举行无监视的训练,只需预测下一个单词或句子。

预训练表征可以灵活地应用于下游任务,针对特定任务的损失和数据集举行微调,或是通过少量上下文学习。近年来,人们在开发更强大的任务无关 LM 架构方面取得了庞大希望,从单层词向量表征到递归神经网络的多层表征和上下文状态,以及最新的基于递归 transformer 的架构。下图展示了一个著名的例子——双深度 Transformer(BERT)——属于第三类。

不管网络架构如何,语言模型通常包罗许多参数,而这些参数是在大规模文本语料库上训练出来的,这是因为它们的建模能力随其巨细以及文本扫描量成正比。假设我们对训练 BERT 感兴趣,在基于 AWS 的 GPU 集群上使用 TensorFlow 等框架实现。我们可以使用最先进的开源训练系统——Horovod,开始数据并行训练。

应用 Horovod 转换单机 BERT 训练代码,涉及将原始的框架内置优化器与 Horovod 修补的优化器包装在一起。然后 Horovod 会在集群节点上使用 collective allreduce 或 allgather 来平均和应用梯度。这些 TensorFlow+Horovod 代码片段展示了 Horovod 如何给优化器打补丁,以及如作甚漫衍式训练举行很是小的代码改变。

虽然可能会在目的集群上部署训练,但获得的扩展不太可能随着添加更多资源而成比例增长(理想情况下,线性扩展与加速器的数量成比例增长):所有的语言模型都有嵌入层,这些层拥有许多模型参数,但在每个设备上的每次训练迭代中会见很少,淘汰或聚集其梯度都市导致不须要的网络运作;BERT 中的 transformer 是矩阵参数化、盘算麋集型的,与 Horovod 中的通例做法一样,将梯度分组在一个缩减环(reduction ring)中,很容易使以太网带宽或异构集群 (如 AWS) 的设备 Flops 饱和。在这两种情况下,设置都容易泛起通信或盘算杂乱的情况,即训练时间的缩短无法律人满足,花费在训练上的盘算资源成本在经济上也不能接受。这讲明,并行化的通例目的并没有实现。

所以,本文提出的这种自适应并行计谋,能够为并行化性能举行适当的优化。作者先容张昊在今年 9 月 2 日完成了博士学位的论文答辩,导师为 CMU 教授、Petuum 首创人邢波(Eric Xing)。

获得 CMU 机械人研究所的博士学位后,他将以博士后身份进入 UC 伯克利的 RISE 实验室,与盘算机科学系教授 Ion Stoica 配合事情。他的研究兴趣包罗可扩展的机械学习、深度学习以及盘算机视觉和自然语言处置惩罚领域的大规模机械学习应用。

他还协同设计了一系列模型、算法和系统,在更大规模数据、问题、应用中举行机械学习扩展,以简化庞大机械学习模型和算法的原型开发,使机械学习法式漫衍自动化。以下为论文章节目录:。


本文关键词:开云下载,229页,CMU,博士,张昊,结业,论文,宣布,探索,机械

本文来源:开云下载-www.quantfn.cn

XML地图 开云app(中国)官方网站IOS/安卓通用版/手机APP下载