深度学习培训时间显着减少

时间:2019-03-06 18:37:22 阅读:8次

  我们的IBM Research AI团队开发了一种新颖的压缩算法,可以显着缩短大型AI系统中深度学习模型的培训时间。使用这种技术,我们首次表明,与现有方法相比,培训期间可以大大减少40-200倍的通信开销。这些结果标志着深度网络培训向前迈出了重要一步,正在2018年AAAI会议上提出。

   AdaComp显示,视觉,语言和语言的深度学习模型没有退化。

  在大型数据集上培训深度学习模型是一项具有挑战性且成本高昂的任务,可能需要几个小时到几周才能完成。为了解决这个问题,通常使用4到128个GPU加速器的集群来划分整个任务,通过利用所有处理同一问题的多个加速器的组合计算强度来减少训练时间。 GPU的数量越大,每个加速器在给定的训练任务中花费的计算时间就越少。

  然而,除了计算之外,这些加速器还需要在训练期间定期地彼此通信关键参数。随着系统中GPU数量的增加以及计算时间(每个GPU中)的下降,这种通信开销开始成为总培训时间的一小部分。

  此外,GPU计算能力(以TFlops测量)仅在过去几年中增长了10倍以上 - 随着GPU体系结构的进步和特殊设备的使用,这一趋势预计将在未来几年继续有增无减目的训练筹码。这种趋势进一步缩短了计算时间,同时使通信时间大部分不受影响,导致通信出现巨大瓶颈 - 导致系统无法利用这些高级加速器的全部功能。

解决该问题的一种方法是使用许多流行的压缩技术之一(例如Lempel-Ziv压缩)压缩传送的数据。然而,由于执行压缩和解压缩所需的时间很长,因此这些压缩技术最终不会在训练期间提供任何实际的性能益处,即使它们有可能减少通信数据的量。因此,需要一种计算友好的压缩技术 - 即快速 - 并利用深度网络的弹性来进行有损压缩。

  我们的团队开始精确地创建这样一种压缩技术,我们将其称为AdaComp(自适应压缩的简称),目标是它可以无处不在地应用于深度学习空间的模型训练。与任何压缩技术的情况一样,选择正确的参数子集进行通信,同时忽略整个集合中的剩余值(可能大到10或100兆字节)是一个关键挑战,因为它可能涉及诸如全局排序,计算量很大。

   AdaComp背后的关键见解是,如果通过将深层网络的每个层的大量参数划分为更小的“块”然后在每个块中应用局部选择算法来完成此选择,则算法可以是有效并行化(因此计算友好)并且不会影响模型收敛。此外,AdaComp技术利用稀疏性的同时优势(通过选择集合中的极少数元素)和量化(用二进制(1位)或三进制(2位)表示来表示所选值,以获得非常高的压缩广泛的深度模型和数据集的速率(高达200倍)。

  我们的团队还指出,虽然之前发布的,最先进的深度学习压缩算法在完全连接的网络(用于语音识别)中运行良好,但当应用于图像中使用的现代深度网络时,它们导致显着的模型精度降低分类。另一方面,AdaComp成功地展示了广泛的DL应用领域中的巨大压缩比,从用于图像分类的最先进的卷积神经网络(CNN)到用于语言建模的递归神经网络(RNN)。在一些语音到文本分类中使用的全连接网络(DNN)。整个电路板很容易获得非常高的压缩率,而模型精度没有明显降低。

  我们的团队对AdaComp及其改变深度学习培训的潜力感到兴奋。我们相信,随着我们迈向超高效大规模深度学习训练计算子系统的时代,这种革命性的压缩算法及其衍生产品将成为基础。有关更多信息,请阅读我们的论文“AdaComp:用于数据并行分布式训练的自适应残差梯度压缩”或查看Chia-Yu在AAAI的演示文稿。

深度学习培训时间显着减少所属专题:深度 减少 《深度学习培训时间显着减少》链接:http://www.zhouchuanxiong.net/804

深度学习培训时间显着减少相关文章

  • IBM利用POWER9和NVIDIA GPU设置万亿级机器学习基准记录; PowerAI即将推出
  • 一种用于大规模图的可扩展深度学习方法
  • 在强化学习中发现特征选择的新算法
  • 加速机器学习算法的培训
  • 使用深度学习生成餐厅评论
  • 使用OpenCV和深度学习在视频中跟踪对象
  • 开发一个使用机器学习的基于Web的移动健康应用程序
  • 在Kubernetes上部署和使用多框架深度学习平台
  • 创建一个Web应用程序以与机器学习生成的图像标题进行交互
  • 创建一个Web应用程序,以便与使用机器学习检测到的对象进
  • 机器学习模型的性能评估
  • 构建机器学习推荐引擎,以鼓励基于过去购买行为的额外购买
  • 使用内部部署数据训练基于云的机器学习模型
  • 使用Watson Machine Learning和IBM Db2 Warehouse on Cloud持续学习
  • 部署深度学习驱动的“魔术裁剪工具”
  • 使用机器学习预测心脏病
  • 使用Watson OpenScale监控自定义机器学习引擎
  • 使用Watson OpenScale监控Sagemaker机器学习
  • 使用机器学习和高级分析分析物联网传感器数据
  • 使用Watson OpenScale监控Azure机器学习
  • 从计算机中学习大脑,反之亦然
  • 机器学习分支出来
  • 更好的机器学习
  • 通过玩游戏来学习语言
  • 更灵活的机器学习
  • 深度学习算法可以预测照片在“近人”级别的可记忆性
  • 像人一样学习的机器
  • 建筑学习的先驱,名誉教授Seymour Papert在88岁时去世
  • 计算机通过观看视频来学习识别声音
  • 从图片中学习单词