IBM利用POWER9和NVIDIA GPU设置万亿级机器学习基准记录; PowerAI即将推出

时间:2019-03-06 18:37:08 阅读:7次

  运行时包括数据加载和培训时间

  今天,在拉斯维加斯的IBM THINK,我们正在使用优化硬件上的新软件和算法报告AI性能的突破,包括POWER9和NVIDIA?V100?GPU。

  在新发布的基准测试中,我们使用Criteo Labs发布的在线广告数据集以及超过40亿个训练样例,我们在91.5秒内训练了一个逻辑回归分类器。此培训时间比先前报告的最佳结果快46倍,该结果使用TensorFlow在Google Cloud Platform上在70分钟内训练相同的模型。

  加速背后的人工智能软件是我们在苏黎世IBM研究院的团队在过去两年中开发的一个名为IBM Snap Machine Learning(Snap ML)的新图书馆 - 因为它训练模型的速度超过了你的手指

  该库提供现代CPU / GPU计算系统上流行的机器学习模型的高速培训,可用于训练模型以找到新的和有趣的模式,或以线速重新训练现有模型(尽可能快当新数据可用时,网络可以支持。这意味着用户的计算成本更低,能耗更低,开发更灵活,结果更快。

  极品飞车

  机器学习和人工智能的广泛采用在某种程度上是由不断增加的数据可用性推动的。大型数据集可以培训更具表现力的模型,从而获得更高质量的洞察力。然而,当这样的数据集的大小增长到数十亿个训练样本和/或特征时,甚至相对简单的模型的训练变得非常耗时。这种漫长的周转时间(从数据准备到评分)可能严重阻碍大型机器学习模型的研究,开发和部署,适用于天气预报和金融欺诈检测等关键应用。

  同样重要的是,Snap ML不仅适用于培训时间可能成为瓶颈的大型数据应用。例如,实时或接近实时的应用程序,其中模型必须快速响应变化的事件,这是培训时间至关重要的另一个重要场景。例如,当一种新的,以前看不见的现象正在发展时,考虑正在进行的黑客威胁能源网格。在这种情况下,使用新数据即时训练或逐步重新训练现有模型可能是有益的。一个人应对此类事件的能力必然取决于训练时间,即使数据本身相对较小,训练时间也会变得至关重要。

  非常需要快速训练的第三个领域是整体学习领域。众所周知,今天的大多数数据科学竞赛都是由大型模型组合赢得的。为了设计获胜的整体,数据科学家通常花费大量时间尝试不同的模型组合并调整出现的大量超参数。在这种情况下,自然地更快地训练模型数量级的能力导致更敏捷的开发过程。提供此类加速的库可以为其用户在竞争数据科学领域或任何需要最佳精度的应用程序中提供宝贵的优势。一个这样的应用是在线广告中的点击率预测,据估计,甚至0.1 {ccf696850f4de51e8cea028aa388d2d2d2eef894571ad33a4aa3b26b4009887}更高的准确度可以导致数亿美元的收益增加。

  机器学习的效率,结果和见解使其成为各种规模企业的关键。无论中小型企业是在云中运行还是大型企业IT运营(为许多业务部门提供服务),机器学习都会给计算资源带来压力。由于资源通常按增量计费,因此解决方案的时间将对业务的底线产生直接影响。

  在这项工作中,我们描述了一个利用现代系统的分层存储器和计算结构的库。我们专注于广义线性模型的培训,我们结合算法和系统设计的最新进展,以最佳方式利用现代计算环境中可用的所有硬件资源。

  区分Snap ML的三个主要特征是:

分布式培训:我们将系统构建为数据并行框架,使我们能够扩展和训练超出单个机器内存容量的大型数据集,这对于大规模应用程序至关重要。
GPU加速:我们实现专门的求解器,旨在利用GPU的大规模并行架构,同时尊重GPU内存中的数据局部性,以避免大量数据传输开销。为了使这种方法可扩展,我们利用异构学习的最新发展来实现GPU加速,即使只有一小部分数据确实可以存储在加速器内存中。
稀疏数据结构:许多机器学习数据集稀疏,因此我们对应用于稀疏数据结构的系统中使用的算法采用了一些新的优化。

   Tera-Scale Benchmark Set-Up

   Terabyte Click Logs是Criteo Labs发布的一个大型在线广告数据集,旨在推进分布式机器学习领域的研究。它由40亿个培训示例组成。

  每个示例都有一个“标签”,即用户是否点击了在线广告,以及相应的一组匿名功能。这种数据的机器学习的目标是学习一种模型,该模型可以预测新用户是否会点击广告。它是最大的公开数据集之一。这些数据是在24天内收集的,每天他们平均收集了1.6亿个训练样例。这向我们展示了在线广告是一个真正庞大的数据领域,它是实时生成的。

  为了训练完整的Terabyte Click Logs数据集,我们在四台IBM Power System AC922服务器上部署了Snap ML。每台服务器都有四个NVIDIA Tesla V100 GPU和两个Power9 CPU,可通过NVIDIA NVLink接口与主机通信。服务器通过Infiniband网络相互通信。在此类基础架构上训练逻辑回归分类器时,我们在91.5秒内实现了0.1292的测试损失。

  图7

  先前在同一数据集和模型上报告的结果总结在图7中,其中我们绘制了训练时间与测试损失的关系,并附有关于用于实验的硬件的一些评论。

  谷歌报告了速度方面与Snap ML最接近的结果,谷歌在其云平台上部署TensorFlow,在70分钟内训练逻辑回归分类器。他们报告使用60台工人机器和29台参数机器。相对于TensorFlow结果,我们观察到Snap ML在测试集上实现了相同的损失,但速度提高了46倍。有关包含参考文献的先前报告结果的完整评论可以在全文中找到。

  图8:运行时配置文件

  在为大型应用程序部署GPU加速时,会出现一个主要的技术挑战:训练数据太大而无法存储在GPU上可用的内存中。因此,在训练期间,需要选择性地处理数据并且重复地移入和移出GPU存储器。为了分析我们应用程序的运行时,我们分析了GPU内核花费了多少时间与在GPU上复制数据所花费的时间。在本研究中,我们使用了较小的Terabyte Clicks Logs子集,包括前2亿个训练示例,并比较了两种硬件配置:

基于Intel x86的计算机(Xeon Gold 6150 CPU @ 2.70GHz),使用PCI Gen 3接口连接1个NVIDIA Tesla V100 GPU。
使用NVLink接口连接4个Tesla V100 GPU的IBM POWER AC922服务器(我们只使用其中的1个进行比较。

  在图8a中,我们显示了基于x86的设置的分析结果。我们可以看到两个流S1和S2。在流S1上,正在执行实际训练(即,调用逻辑回归内核)。训练每个数据块的时间大约是90毫秒(ms)。在培训正在进行时,在流S2中,我们将下一个数据块复制到GPU上。我们观察到复制数据需要318毫秒,这意味着GPU闲置了很长一段时间,复制时间显然是瓶颈。

  在图8b中,对于基于POWER的设置,我们发现由于NVIDIA NVLink提供更快的带宽,将下一个块复制到GPU上的时间大大减少到55毫秒(几乎是6倍) 。这种加速可以隐藏内核执行后的数据复制时间,有效地消除了关键路径的复制时间,从而加速了3.5倍。

   IBM Research的这一突破将在今年晚些时候作为PowerAI技术预览组合的一部分供客户使用,与此同时,我们正在积极寻找对试点项目感兴趣的客户。

  观看IBM院士Hillary Hunter在THINK 2018(从29:00开始)谈论这项研究


“Snap Machine Learning”,作者:Thomas Parnell,Celestine Duenner,Dimitrios Sarigiannis,Nikolas Ioannou,Haralampos Pozidis - https://arxiv.org/abs/1803.06333

  

   IBM宣布其苏黎世研究实验室的一个团队使用NVIDIA Tesla#V100 GPU击败关键性能基准#machinelearning工作量为46倍。阅读NVIDIA首席执行官Jensen Huang在@IBM#think18上的完整回顾。 https://t.co/iOFGNUf1cK pic.twitter.com/edfi620mT3

  — NVIDIA数据中心(@NVIDIADC)2018年3月20日

  

  

  

IBM利用POWER9和NVIDIA GPU设置万亿级机器学习基准记录; PowerAI即将推出所属专题:机器学习 AI 《IBM利用POWER9和NVIDIA GPU设置万亿级机器学习基准记录; PowerAI即将推出》链接:http://www.zhouchuanxiong.net/797

IBM利用POWER9和NVIDIA GPU设置万亿级机器学习基准记录; PowerAI即将推出相关文章