IBM Research利用新的软件技术实现了创纪录的深度学习性能

时间:2019-03-06 18:39:41 阅读:6次

   摘要:IBM Research使用 分布式深度学习软件在arXiv中发布接近理想的 扩展,从而实现了记录通信开销和在64个IBM Power系统中,通过256个NVIDIA GPU,Caffe深度学习框架实现了95%的扩展效率 。 Facebook AI Research对之前的最佳扩展表现为89%的Caffe2培训,通信开销较高。通过在50分钟内训练模型,IBM研究也击败了Facebook的时间,而Facebook花了1小时。使用该软件,IBM Research在一个非常大的数据集(7.5M图像)上训练的神经网络实现了33.8%的新 图像识别精度。 Microsoft发布的上一条记录 的准确率为29.8%。

   此研究分布式深度学习代码的技术预览现已在 IBM PowerAI 4.0发行版 中针对TensorFlow和Caffe提供。

  深度学习是一种广泛使用的AI方法,可帮助计算机理解和提取人类体验世界大部分地区的图像和声音的意义。从消费者移动应用体验到医疗成像诊断,它有望带来突破。但是,大规模部署深度学习的准确性和实用性的进步受到技术挑战的影响,例如需要运行大规模和复杂的基于深度学习的AI模型 - 培训时间以天和周来衡量。

  就我们而言,我在IBM Research的团队一直致力于减少具有大型数据集的大型模型的培训时间。我们的目标是将与深度学习培训相关的等待时间从几天或几小时缩短到几分钟或几秒,并提高这些AI模型的准确性。为实现这一目标,我们正在解决在大量服务器和NVIDIA GPU上分发深度学习的重大挑战规模问题。

  大多数流行的深度学习框架可扩展到服务器中的多个GPU,但不能扩展到具有GPU的多个服务器。具体来说,我们的团队(Minsik Cho,Uli Finkler,David Kung,Sameer Kumar,David Kung,Vaibhav Saxena,Dheeraj Sreedhar)编写了软件和算法,可以自动化和优化这个庞大而复杂的计算任务在数百个GPU加速器上的并行化到几十台服务器。

   IBM研究员Hillery Hunter开发新软件,实现前所未有的GPU处理速度。

  我们的软件与非常低的通信开销完全同步地进行深度学习培训。因此,当我们扩展到拥有100个NVIDAI GPU的大型集群时,它在ImageNet-22k数据集的7.5M图像上产生了33.8%的记录图像识别精度,而微软之前的最佳公布结果为29.8%。准确度提高4%是一个巨大的飞跃;过去典型的改进不到1%。我们创新的分布式深度学习(DDL)方法不仅提高了准确性,而且还通过利用配备100个NVIDIA GPU的10s服务器的功能,在短短7个小时内训练ResNet-101神经网络模型;微软花了10天的时间来训练相同的模型。这一成就要求我们创建DDL代码和算法,以克服扩展这些功能强大的深度学习框架所固有的问题。

  这些结果是基于设计用于极端测试深度学习算法和系统的基准测试,因此虽然33.8%可能听起来不是很多,但它的结果明显高于之前的出版物。给定任何随机图像,这个训练有素的AI模型将在22,000个选项中给出其最佳选择对象(前1个准确度),准确率为33.8%。我们的技术将使其他针对特定任务进行培训的AI模型(如检测医学图像中的癌细胞)在数小时内更加准确和训练,并在几秒钟内重新训练。

   Facebook AI Research在2017年6月的一篇研究论文中描述了这个问题,该论文使用较小的数据集(ImageNet 1k)和较小的神经网络(ResNet 50)解释了他们自己的优秀结果:

   “深度学习通过大型神经网络和大型数据集而蓬勃发展。但是,较大的网络和较大的数据集会导致较长的培训时间,从而影响研究和开发进度。“

  具有讽刺意味的是,随着GPU变得更快,在许多服务器上编排和优化深度学习问题的这个问题变得更加困难。这在深度学习系统中创造了一个功能上的差距,促使我们创建了一类新的DDL软件,以便能够在大规模神经网络和非常高的数据集上运行流行的开源代码,如Tensorflow,Caffe,Torch和Chainer。性能和非常高的准确度。

  这里的“盲人与大象”寓言的变体有助于描述我们正在解决的问题以及我们所取得的有希望的早期结果的背景。每个维基百科:

   “......每个盲人都感觉到大象身体的不同部分,但只有一个部分,如侧面或象牙。然后他们根据他们的部分经验描述大象,他们的描述完全不同意大象是什么。“

  现在,尽管最初存在分歧,如果这些人有足够的时间,他们可以分享足够的信息,拼凑出一幅非常准确的大象集体图片。

  同样地,如果你有一堆GPU在处理深度学习训练问题的任务 - 在几天或几周内并行(通常是今天的情况) - 你可以相当容易地同步这些学习结果。 / p>

  但随着GPU变得更快,他们学得更快,他们必须以传统软件无法达到的速度与所有其他GPU分享他们的学习。这给系统网络带来了压力,是一个棘手的技术问题。基本上,更聪明,更快速的学习者(GPU)需要更好的通信方式,或者他们不同步并且花费大部分时间等待彼此的结果。因此,使用更快,更快速学习的GPU,您无法获得加速 - 甚至可能降低性能。

  当您查看扩展效率或者在添加GPU时,系统性能的接近程度如何,我们使用(DDL)软件解决这一功能差距的能力最为明显。这个测量结果可以看出256个GPU正在“谈论”彼此学习的内容。

  之前展示的256 GPU的最佳扩展是来自Facebook AI Research(FAIR)的团队。 FAIR在较小的数据集ImageNet-1K上使用了较小的深度学习模型ResNet-50,该数据集有大约130万个图像,这两个图像都降低了计算复杂度,并使用了更大的批量大小8192,并实现了89%的缩放效率使用Caffe2深度学习软件的256 NVIDIA P100 GPU加速集群。对于ResNet-50模型和与Facebook相同的数据集,IBM Research DDL软件使用Caffe实现了95%的效率,如下图所示。这是在64个“Minsky”Power S822LC系统的集群上运行,每个系统有四个NVIDIA P100 GPU。

  

跨越256 GPU(日志规模)扩展IBM DDL的性能

  用于在ImageNet-22K数据集的7.5M图像上训练更大的ResNet-101模型,图像批量大小为5120 ,我们实现了88%的扩展效率。

  与Facebook之前1小时的纪录相比,我们在50分钟的最快绝对训练时间方面取得了创纪录的成绩。我们使用DDL将Torch缩放到256 GPU,使用ImageNet-1K模型训练ResNet-50模型。 Facebook使用Caffe2培训了一个类似的模型。

  对于开发人员和数据科学家来说,IBM Research(DDL)软件提供了一个API(应用程序编程接口),每个深度学习框架都可以连接到该API,以扩展到多个服务器。现在,PowerAI企业深度学习软件产品的第4版提供了技术预览,使任何使用深度学习培训其AI模型的组织都可以使用此集群扩展功能。我们希望通过将此DDL功能提供给AI社区,我们将看到更高精度的运行,因为其他人利用群集的功能进行AI模型培训。

  

IBM Research利用新的软件技术实现了创纪录的深度学习性能所属专题:技术 《IBM Research利用新的软件技术实现了创纪录的深度学习性能》链接:http://www.zhouchuanxiong.net/846

IBM Research利用新的软件技术实现了创纪录的深度学习性能相关文章

  • 使用深度学习来预测海浪
  • 深度学习的开放标准,以简化神经网络的发展
  • 使用物联网和机器学习来跟踪肺病的进展
  • 机器学习过去常常超过MELD来评估肝脏疾病
  • IBM科学家证明使用GPU可以将大规模机器学习速度提高10倍
  • 分布式深度学习培训控制提供10倍的性能提升
  • ROMEO寻求通过机器学习和边缘物联网改善风电场
  • 从研究论文中自动生成深度学习模型的代码
  • 攻丝机学习促进更多地利用仿生学进行创新
  • 深度学习培训时间显着减少
  • IBM Research的深度学习进展
  • IBM利用POWER9和NVIDIA GPU设置万亿级机器学习基准记录; PowerAI即将推出
  • 一种用于大规模图的可扩展深度学习方法
  • 在强化学习中发现特征选择的新算法
  • 加速机器学习算法的培训
  • 使用深度学习生成餐厅评论
  • 使用OpenCV和深度学习在视频中跟踪对象
  • 开发一个使用机器学习的基于Web的移动健康应用程序
  • 在Kubernetes上部署和使用多框架深度学习平台
  • 创建一个Web应用程序以与机器学习生成的图像标题进行交互
  • 创建一个Web应用程序,以便与使用机器学习检测到的对象进
  • 机器学习模型的性能评估
  • 构建机器学习推荐引擎,以鼓励基于过去购买行为的额外购买
  • 使用内部部署数据训练基于云的机器学习模型
  • 使用Watson Machine Learning和IBM Db2 Warehouse on Cloud持续学习
  • 部署深度学习驱动的“魔术裁剪工具”
  • 使用机器学习预测心脏病
  • 使用Watson OpenScale监控自定义机器学习引擎
  • 使用Watson OpenScale监控Sagemaker机器学习
  • 使用机器学习和高级分析分析物联网传感器数据