微信8.0将好友和朋友圈可见人数上限提至1万人
|
ZeRO-Offload 通过将数据和计算卸载(offload)至 CPU 来实现大规模模型训练。为了不降低计算效率,它被设计为最小化与 GPU 之间的数据往来,并在尽可能节省 GPU 内存的同时降低 CPU 的计算时间。因此,对于一个参数量为 100 亿的模型,ZeRO-Offload 可以在单个 NVIDIA V100 GPU 上实现 40 TFlops/GPU。相比之下,使用 PyTorch 训练一个参数量为 14 亿的模型仅能达到 30TFlops,这是在不耗尽内存的情况下所能训练的最大模型。ZeRO-Offload 还可以扩展至多 GPU 设置并实现线性加速,最多可在 128 个 GPU 上实现近似线性加速。 此外,ZeRO-Offload 还可以和模型并行一起使用,在一个 DGX-2 box AI 服务器上训练参数量超 700 亿的模型。与单独使用模型并行相比,这一参数量实现了 4.5 倍的规模提升。 在下文中,我们将结合 Medium 博主 LORENZ KUHN 的一篇博客来详细了解这篇论文。 ZeRO-Offload 是什么? ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU,以此减少神经网络训练期间 GPU 内存占用的方法,该方法提供了更高的训练吞吐量,并避免了移动数据和在 CPU 上执行计算导致的减速问题。 借助 ZeRO-offload,使用相同的硬件能训练以往 10 倍大的模型,即使在单个 GPU 上也是如此。比如在一个 32GB RAM 的 V100 GPU 上训练百亿参数的 GPT-2。 此外,ZeRO-offload 还能实现在多 GPU 设置中的近似线性扩展。 对于研究者来说,ZeRO-offload 适用的情况包括: 想训练更大的模型,或者想更快地训练现在的模型,因为 ZeRO-offload 允许训练更大的 batch size; 你正在使用 PyTorch,并且愿意 / 能够使用微软的 DeepSpeed 库(ZeRO-offload 的其他实现形式暂未推出),你也可以尝试根据官方实现自行调整;
愿意接受一些建模时的限制,比如当前版本的 ZeRO-Offload 需要搭配使用 Adam 的混合精度训练。 现在的模型动辄数百、数千亿参数,普通人训不动怎么办? 前不久,谷歌发布了参数量为 1.6 万亿的语言模型Swith Transformer,将 GPT-3 创下的参数量记录(1750 亿)推至新高。这些大模型的出现让普通研究者越发绝望:没有「钞能力」、没有一大堆 GPU 就做不了 AI 研究了吗? 在此背景下,部分研究者开始思考:如何让这些大模型的训练变得更加接地气?也就是说,怎么用更少的卡训练更大的模型?
为了解决这个问题,来自微软、加州大学默塞德分校的研究者提出了一种名为「 ZeRO-Offload 」的异构深度学习训练技术,可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型,让普通研究者也能着手大模型的训练。与 Pytorch 等流行框架相比,ZeRO-Offload 将可训练的模型规模提升了 10 倍,而且不需要数据科学家对模型做出任何改变,也不会牺牲计算效率。 lashBlade系统中的每个刀片都将原始NAND闪存与Intel Xeon片上系统处理器相结合。Pure Storage重新架构SSD的闪存转换层,以消除瓶颈。并已重新配置DRAM以改善并行性。每个刀片服务器都附带文件和对象系统软件,可提供数据和弹性功能,并且包括嵌入式软件定义的交换矩阵。FlashBlade提供可从199 TB扩展到7.8 PB的名称空间。 FlashBlade被设计为具有支持NFS和S3访问的核心对象存储。分布式事务数据库无需使用网关即可启用文件和对象访问,这可能会影响性能和效率。通过使用专门的对象命名约定,该数据库可消除分离文件和对象系统的需要。还可促进本机横向扩展架构–可分布元数据、文件和对象。FlashBlade提供与S3 API的完全兼容性。但是,对象和文件部署在单独的命名空间中,不支持跨协议访问。 选择文件和对象存储产品 在评估存储产品时,决策者需要考虑很多因素。如果他们想要同时支持文件和对象存储的产品,则他们必须了解供应商如何部署这些格式。
上面我们提到来自Dell EMC、NetApp和Pure Storage的产品,这些产品展示了需要考虑的关键因素。例如,并非每个产品都支持所有S3功能或提供对数据的跨协议访问。FlashBlade可能提供与S3 API的完全兼容性,但只有PowerScale OneFS提供跨协议访问。最后,重点是企业需要哪些功能,以及现在和将来哪种存储产品可以最好地支持其工作负载。 (编辑:周口站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
