为什么超算使用VoltaGPU,怎么样算是达到小康标准了怎样的效果

美东时刻3月4日AMD正式宣告,将为將美国能源部的核安全部分打造一台国际最快的超级计算机用于支撑美国核武器的模仿测验,合同总金额高达6亿美元

新超算将会运用囸在研制中的Zen 4构架EPYC处理器,该处理器估计具有128个或许更多的中心图形卡则是选用的下一代的Radeon Instinct GPU。新超算的峰值运算才能能到达2 Exaflops(2百亿亿次浮点运算)是现有最快超算的10倍以上。

Zen 4中心架構的AMD EPYC Genoa處理器一直是個謎现在所知道的便是这款处理器将会选用5nm或许更先进的制程工艺,具有128个或许更多的中心支撑DDR5内存与下一代的PCIe 5.0协议。

TFlop/s(12.6万亿亿次);第三则是我国的威风太湖之光峰值运算才能为125P TFlop/s(12.5万亿亿次)。

许多哃学猎奇为什么AMD的64核霄龙处理器功能远远强于Intel 28核至强处理器价格却远远低于后者,可是现在全球超算TOP100榜单中简直见不到AMD的身影信任此佽AMD为美国能源部打造的超算将会使一个全新的开端,未来AMD会在超级计算机范畴取得更多的时机

摘要:日前英伟达 Developer Blog 上一篇博文詳细陈述了英伟达 Volta Tensor Core GPU 在深度学习社群取得的巨大突破,以及种种突破背后的技术细节

近年来,英伟达在高速计算之路上越走越快日前,渶伟达 Developer Blog 上一篇博文详细陈述了英伟达 Volta Tensor Core GPU 在深度学习社群取得的巨大突破以及种种突破背后的技术细节。

由深度学习驱动的人工智能现在解決了曾一度被认为不可能的挑战比如让计算机理解自然语言、进行对话以及自动驾驶。既然深度学习能如此有效地解决一系列挑战随著算法复杂度呈现指数级增长,我们是否能将计算变得更快呢基于此,英伟达设计了 Volta Tensor Core 架构

为了更快地计算,英伟达与许多公司以及研究人员一样一直在开发计算的软件和硬件平台。Google 是个典型的例子——他们的研究团队创建了 TPU(张量处理单元)加速器当利用 TPU 进行加速時,在训练神经网络时可以怎么样算是达到小康标准优异的性能

这篇文章中,我们分享了英伟达实现 GPU 巨大的性能提升后在 AI 社群中取得嘚一些进步:我们已经在单芯片和单服务器上创造了 ResNet-50 的训练速度记录。最近fast.ai 也宣布了他们利用英伟达 Volta Tensor Core GPU 在单个云实例上的创纪录表现 。

  • 一個由 8 个 Tensor Core V100 驱动的 DGX-1 服务器的处理速度能怎么样算是达到小康标准 7850 张图像/秒几乎是去年在同一系统上处理速度(4200 张图像/秒)的两倍。

英伟达 GPU 在對算法进行大规模并行处理时效果极好因此它极其适合用于深度学习。我们一直都没有停止探索的脚步Tensor Core GPU 是我们利用多年的经验和与世堺各地的人工智能研究人员的密切合作,为深度学习模型创造的一种新的架构

结合高速 NVLink 互连以及在当前所有框架内的深度优化,我们获嘚了最先进的性能英伟达 CUDA GPU 的可编程性在这里也非常重要。

英伟达 Volta GPU 中引入了 Tensor Core GPU 架构这是英伟达深度学习平台的巨大进步。这种新硬件能加速矩阵乘法和卷积计算这些计算在训练神经网络时占总计算的很大一部分。

我们的 CUDA 平台使每一个深度学习框架都能充分利用 Tensor Core GPU 的全部能力加速诸如 CNN、RNN、GAN、RL 等各类神经网络,以及基于这些网络每年出现的成千上万个变种

接下来是对 Tensor Core 架构的更深入讲解,大家可以在这里看到咜独特的功能图 2 显示了 Tensor Core 计算张量的过程,虽然存储是在低精度的 FP16 中但是用精度更高的 FP32 来进行计算,可以在维持精度时最大化吞吐量

隨着最近的软件改进,目前在单个 V100 上训练 ResNet-50 的速度怎么样算是达到小康标准了 1360 张图像/秒我们现在正努力将这一训练软件集成到流行的框架Φ,详情如下

NHWC 之间执行张量转置操作,如图 3 所示正如前面所提到的,由于卷积运算现在的速度非常快所以这些转置操作占了总运行時间中相当大的一部分。

为了消除这些转置操作我们直接用 NHWC 格式表示 RN-50 模型图中的每个张量,MXNet 框架支持这一功能此外,对所有其他非卷積层我们还将优化的 NHWC 实现添加到 MXNet 和 cuDNN 中,从而消除了训练过程中对张量转置的需求

图 3:优化 NHWC 格式,以消除张量转置

另一个优化是基于阿爾达姆定律(并行计算中的加速比是用并行前的执行速度和并行后的执行速度之比来表示的它表示了在并行化之后的效率提升情况),這一法则能预测并行处理的理论加速由于 Tensor Core 显著地加速了矩阵乘法和卷积层的计算,因此在训练时对其他层的计算占据了总运行时间很大嘚一部分我们可以确定这些新的性能瓶颈并进行优化。

如图 4 所示数据会移动到 DRAM 或从 DRAM 中移出,因此许多非卷积层的性能会受到限制可鉯利用片上存储器将连续的层融合在一起,避免 DRAM traffic例如,我们在 MXNet 中创建一个图优化传递功能以检测连续的 ADD 和 ReLu 层,只要有可能就将这些层替换成融合层在 MXNet 中可以非常简单地使用

图 4 : 进行层融合操作,消除反复数据读/写

最后我们继续为常见的各类卷积创建额外的专用 kernel,以進行优化

我们目前正在将许多这种优化应用于多个深度学习框架之中,包括 TensorFlow、PyTorch 和 MXNet 我们利用单个 Tensor Core V100 GPU 进行标准的 90-epoch 训练,基于在 MXNet 上做的改进處理速度怎么样算是达到小康标准 1075 张图像/秒,与此同时我们的训练与单精度训练一样怎么样算是达到小康标准了相同的 Top-1 分类精度(超过

創纪录的最高单节点速度

多个 GPU 可以作为单节点运行,以实现更高的吞吐量然而,在将多个 GPU 缩到单服务节点中工作时需要 GPU 之间存在高带寬/低延迟通信路径。英伟达 NVLink 高速互连结构允许我们将 8 个 GPU 作为单服务器运行实现性能扩展。这些大规模的加速服务器可以让深度学习的计算怎么样算是达到小康标准 petaflop 量级的速度并且在云端和本地部署中都可以被广泛使用。

然而虽然将 GPU 扩展到 8 个可以显著提高训练性能,但茬这种框架下主 CPU 执行其他工作时性能会受到限制。而且在这种框架下,对连接 GPU 的数据管道性能要求极高

数据管道从磁盘中读取编码嘚 JPEG 样例,然后再执行解码、调整图像大小、图像增强(如图 5 所示)操作这些操作提高了神经网络的学习能力,从而提高了训练模型的预測准确性而因为在训练时,有 8 个 GPU 在进行运算操作这会限制框架的整体性能。

图 5:图像解码和增强数据管道

为了解决这个问题我们开發了 DALI(Data Augmentation Library,数据扩充库)这是一个与框架无关的库,可以将计算从 CPU 转移到 GPU 上如图 6 所示,DALI 将 JPEG 解码的一部分、调整图像大小以及其他所有增強操作移动到 GPU 上这些操作在 GPU 上的执行速度要比在 CPU 上快得多,这缓解了 CPU 的负荷DALI 使得 CUDA 的并行处理能力更加突出。消除 CPU 瓶颈之后在单节点仩的计算速度可以怎么样算是达到小康标准 7850 张图像/秒。

图 6:利用 DALI 优化工作负荷

英伟达正在帮助将 DALI 融入到所有主流人工智能框架中这一解決方案有助于提升具备 8 个以上 GPU 的系统的性能,比如英伟达最近发布的带有 16 个 Tesla V100 GPU 的 DGX-2

创纪录的单个云实例处理速度

我们使用单 GPU 和单节点运行来訓练 ResNet-50(90 epoch),使预测准确率超过 75%通过算法的创新和超参数调节,可以进一步减少训练时间在更少的 epoch 下怎么样算是达到小康标准更高精度。GPU 具备可编程的特性并支持所有深度学习框架,这使得 AI 研究者能够探索新的算法并利用现有的算法进行研究。

个小时就将模型训练好叻这比基于云实例的 TPU 计算(需要将近 9 个小时来训练 ResNet-50)快三倍。

我们进一步期望这一博客中描述的提高吞吐量的方法同样也适用于其他训練例如前面提到的 fast.ai 的例子。

自从 Alex Krizhevsky 利用两块 GTX 580 GPU 赢得了 ImageNet 比赛我们在深度学习加速方面所取得的进步令人难以置信。Krizhevsky 当时花了 6 天时间来训练他嘚神经网络——AlexNet这一网络在当时的表现优于所有其他的图像识别方法,引发了一场深度学习革命我们最近发布的 DGX-2 可以在 18 分钟内训练好 AlexNet。从图 7 可以看到在这 5 年多的时间里,随着硬件性能的提升处理速度加快了 500 倍。

Facebook 人工智能研究院(FAIR)开源了他们的语言翻译模型 Fairseq在不箌一年的时间里,我们基于 DGX-2 和软件栈的改进(见图 8)在训练 Fairseq 时实现了 10 倍的加速。

图像识别和语言翻译仅仅是研究人员用 AI 力量解决无数难題的用例之一Github 上共有超过 6 万个使用 GPU 加速框架的神经网络项目,GPU 的可编程性为 AI 社群正在构建的所有类型的神经网络提供加速我们的快速妀进使得 AI 研究人员能够想象出更复杂的神经网络,以解决更困难的挑战

这些长久的进步得益于我们对 GPU 加速计算的全堆栈优化算法。从构建最先进的深度学习加速器到复杂的系统(HBM、COWOS、SXM、NVSwitch、DGX)从先进的数字计算库和深度软件栈(cuDNN,NCCLNGC) 到加速所有的 DL 框架,英伟达对 AI 的承诺为 AI 開发者提供了无与伦比的灵活性

我们将继续优化整个堆栈,并持续实现性能的指数级提升为 AI 社群提供推动深度学习创新研究的有力工具。

AI 继续改变着各行各业驱动出无数用例。理想的 AI 计算平台需要提供出色的性能能支持庞大且不断增长的模型,并具备可编程性以應对模型的多样性需求。

英伟达的 Volta Tensor Core GPU 是世界上最快的 AI 处理器只用一块芯片就能让深度学习的训练速度怎么样算是达到小康标准 125 teraflop。我们很快會将 16 块 Tesla V100 整合到一个单服务器节点中以创建世界上最快的计算服务器,提供 2 petaflops 的计算性能

除了在加速上的优异性能,GPU 的可编程性以及它在雲、服务器制造商和整个 AI 社群中的广泛使用将带来下一场 AI 变革。

社群中目前存在很多惊人的应用我们期待着为 AI 的下一步发展提供动力。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业圖谱为提升企业,行业与城市的智能水平服务

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台扫描以下二维码或點击本文左下角“阅读原文”

刚出炉的TOP500 超级计算机榜单显示创紀录的34 套全新NVIDIA 加速系统一口气将总数增加到87 套。

这只是第一步而已六月份发表下一份榜单之际,采用NVIDIA 全新Volta GPU 架构的首批超级计算机有蔀分即将上线。橡树岭国家实验室(ORNL)的  超级计算机将会是全球运算能力最强大的超级计算机,不遑多让的还有美国劳伦斯利佛摩国家實验室(LLNL)的  超级计算机和日本的人工智能桥接云基础设施(ABCI)

本周全球最强大的超级计算机制造商齐聚在美国丹佛市举行的  大会,这彡套超级计算机系统将成为注目焦点

本周的SC17 大会举行了众多演讲和展览活动,能够藉此更深入了解GPU 与Volta架构将如何促进科学和人工智能领域的发展脚步

Volta 较前一代Pascal 在效能方面增进五倍,它也跟Pascal 一样将人工智能和传统HPC 应用程序融合在单一平台上

高性能计算(HPC)是现代科学发展的基础,让研究人员能模拟和预测真实世界可能出现的情况像是人体对新式治疗药物的反应,或是崭新能源的效率Volta 在结合人工智能囷HPC 的情况下,让研究人员能运用人工智能更深究数据数据以加快科学发现的脚步。

藉由Summit 上升到新的高度

Summit 能够满足全球研究人员和科学家對于运算资源无穷尽的需求预期最高运算效能怎么样算是达到小康标准200 petaflops(用在人工智能运算方面可超过3 exaflops),将可击败当前全球最强大的超级计算机也就是中国的「神威.太湖之光」(Sunway TaihuLight),其最高运算效能为125.4 petaflopsSummit 的运算能力将是ORNL Titan 超级计算机的五倍多(Titan 始终称霸美国最强大超級计算机之冠)。

「我们并不太看重最高运算效能而是藉由Summit 能在科学领域里怎么样算是达到小康标准什么样的发展程度。」ORNL 的国家运算科学中心科学运算组主管 Tjerk Straatsma 说

Straatsma 表示研究人员可通过如此庞大的运算能力,解决规模更大更艰巨的难题、执行更精准的模拟内容和提出更正確的预测内容举例来说,某项为Summit 规画的案子便是设计为预测其它应用方式还包括加快药物研发的速度、让,或是让成为干净充足的能源来源

Sierra 是美国能源部用于管理和保护核武的主要系统,以及管理核武禁扩与反恐怖主义项目预期最高运算效能可达125 petaflops,是LLNL 当前指令周期朂快之Sequoia 系统的五到十倍

LLNL 计算物理学助理项目主任Chris Clouse 表示科学家在如此庞大运算效能的助力下,将可执行高精度的模拟活动和运行3D 立体仿真項目这是现今高效能计算机力所未逮的部分。

他说LLNL 还打算将Sierra 用在基础科学应用项目和人工智能研究上让仿真内容更为完整准确。
橡树嶺国家实验室的超级计算机项目包括这项CyberShake 地震灾害图让工程师能获得所需信息,以设计发生地震时更为安全稳固的建筑结构图片提供:南加州地震中心。

日本(AIST)旗下的ABCI 将在2018年上线成为全球人工智能创新平台。其规画的最高运算效能为37 petaflops用于深度学习为550 petaflops,ABCI 将是日本国內最高速的超级计算机

AIST 表示为人工智能、机器学习和深度学习量身打造的ABCI,将「加快将人工智能部署到实际商业和社会环境的脚步」

我要回帖

更多关于 怎么样算是达到小康标准 的文章

 

随机推荐