人工智能的未来需要更好的计算:基于模拟存储设备的硬件加速器

时间:2019-03-06 18:36:34 阅读:2次

使用模拟内存实现软件等效精度,实现更快,更低功耗的神经网络训练

  想象一下个性化人工智能AI),您的智能手机变得更像智能助手 - 即使在嘈杂的房间内也能识别您的声音,了解不同社交场合的背景或只提供与您真正相关的信息,拔出每天到达的大量数据这些功能可能很快就会触手可及 - 但要实现这一目标需要快速,强大,高能效的AI硬件加速器。

  在最近发表于 Nature 的论文中,我们的IBM Research AI团队展示了与大型模拟存储设备阵列进行深度神经网络(DNN)培训,其精度与图形处理单元(GPU)相同基于系统。我们相信这是迈向下一次AI突破所必需的硬件加速器的重要一步。为什么?因为提供AI的未来将需要大大扩展AI计算的规模。

   DNN必须在云端和边缘变得更大更快 - 这意味着能效必须大幅提升。虽然更好的GPU或其他数字加速器可以在某种程度上提供帮助,但是这样的系统不可避免地花费大量时间和精力将数据从存储器移动到处理和返回。我们可以通过在模拟域中直接在数据位置执行AI计算来提高速度和能效 - 但这只有在生成的神经网络与传统数字硬件实现的神经网络一样智能时才有意义。

  非易失性存储器的交叉开关阵列可以通过在数据位置执行计算来加速完全连接的神经网络的训练。

  模拟技术涉及连续可变信号而不是二进制0和1,它们的精度具有固有的限制 - 这就是现代计算机通常是数字计算机的原因。然而,人工智能研究人员已经开始意识到,即使数字精度降低到对于几乎任何其他计算机应用来说都太低的水平,他们的DNN模型仍能正常工作。因此,对于DNN,可能模拟计算也可能有效。

  然而,到目前为止,还没有人能够最终证明这种模拟方法可以完成与当今传统数字硬件上运行的软件相同的工作。也就是说,DNN真的可以用这些技术训练到相当高的精度吗?如果得到的分类准确度总是低得令人无法接受,那么在训练DNN时,没有必要更快或更节能。

  在我们的论文中,我们描述了模拟非易失性存储器(NVM)如何有效地加速“反向传播”算法,这是许多最新AI技术进步的核心。这些存储器允许使用基础物理学在这些算法中使用的“乘法 - 累加”运算在模拟域中,在权重数据的位置处并行化。我们只需将一个小电流通过一个电阻器连接到电线上,然后将许多这样的电线连接在一起,让电流积聚起来,而不是将大数电路相乘并将数字相加。这让我们可以同时执行许多计算,而不是一个接一个地执行。而不是在数字存储芯片和处理芯片之间的长途旅行中传输数字数据,我们可以在内部模拟存储器芯片中执行所有计算。

  然而,由于当今模拟存储设备固有的各种缺陷,以前直接在大型真实NVM设备阵列上进行DNN训练的演示未能达到与软件训练网络相匹配的分类精度。

  通过将相变存储器(PCM)器件中的长期存储,传统互补金属氧化物半导体(CMOS)电容器的近线性更新与用于抵消器件到器件可变性的新技术相结合,我们对这些进行了精细化处理各种不同网络上的缺陷和实现的软件等效DNN精度。这些实验使用混合硬件 - 软件方法,将易于精确建模的系统元件的软件模拟(例如CMOS器件)与PCM器件的全硬件实现相结合。在我们的神经网络中使用真实的模拟存储设备对于每个权重都是必不可少的,因为这种新设备的建模方法经常无法捕获它们可以展示的各种设备到设备的可变性。

  使用这种方法,我们验证了完整的芯片确实应该提供相同的精度,因此可以完成与数字加速器相同的工作 - 但速度更快,功耗更低。鉴于这些令人鼓舞的结果,我们已经开始探索原型硬件加速器芯片的设计,作为IBM Research Frontiers Institute项目的一部分。

  从这些早期的设计工作中,我们能够提供,作为我们的 Nature 论文的一部分,初步估计这种基于NVM的芯片用于培训全连接层的潜力,就计算能效(28,065 GOP / sec / W)和每面积吞吐量(3.6 TOP / sec / mm2)。这些值超出了当今GPU的规格两个数量级。此外,完全连接的层是一种神经网络层,其实际GPU性能经常远低于额定规格。

  本文指出,尽管存在现有模拟存储设备的不完善之处,我们的基于NVM的方法可提供与软件等效的训练精度以及加速度和能量效率的数量级改进。接下来的步骤将是在更大的网络上演示相同的软件等效性,要求大型,完全连接的层 - 例如循环连接的长期短期存储器(LSTM)和门控循环单元(GRU)网络背后的机器翻译的最新进展,字幕和文本分析 - 以及在基于NVM的原型硬件加速器上设计,实现和优化这些模拟技术。针对此应用进行了优化的新型和更好形式的模拟存储器有助于进一步提高面密度和能效。

  (L-R)Pritish Narayanan,Bob Shelby,Geoffrey Burr,Stefano Ambrogio和Sidney Tsai。 “未来如此光明,我们必须佩戴阴影!”

人工智能的未来需要更好的计算:基于模拟存储设备的硬件加速器所属专题:人工智能专题 《人工智能的未来需要更好的计算:基于模拟存储设备的硬件加速器》链接:http://www.zhouchuanxiong.net/783

人工智能的未来需要更好的计算:基于模拟存储设备的硬件加速器相关文章

  • 率先塑造计算和人工智能的未来
  • 在医疗保健中使人工智能民主化
  • 人工智能峰会解决了技术对就业和
  • 人工智能模型从患者数据中“学习
  • 研究发现商业人工智能系统中的性
  • 人工智能有助于材料制造
  • 利用人工智能改善早期乳腺癌检测
  • Eric Sc??hmidt访问麻省理工学院
  • CSAIL与业界合作推出人工智能计划
  • MIT举办与人工智能电影相关的活动
  • 机器人和超越展览探索人工智能世
  • 建立符合道德标准的人工智能
  • 人工智能与人类创造力齐头并进
  • 人工智能的未来需要更好的计算:
  • 人工智能的时代 - 以及将提供它的
  • 最佳思维:IBM致力于与大学合作伙
  • 麻省理工学院和IBM:将我们的“思
  • 2017年CVPR的IBM研究:通过计算机
  • 通过人工智能技术扩展温布尔登高
  • 互联网零售商独家:人工智能体验
  • 我们与学术界合作推进人工智能领
  • 宣布人工智能合作伙伴关系让人民
  • 构建人工智能时避免人为错误
  • 民主化和可解释性:DataRobot的2
  • 砖和砂浆零售中人工智能的杀手用
  • 人工智能将增强我们,而不是取代
  • 利用模糊匹配和人工智能识别重复
  • 利用人工智能提供下一个最佳行动
  • 人工智能不能比人类做得好4件事
  • AI& SaaS:SaaS平台使用人工
  • 人工智能内容审核:3关键问题及答
  • 内容审核人权:人工智能如何帮助
  • 什么是人工智能即服务(AIaaS)?
  • 人工智能如何重塑电子商务领域?
  • 人工智能与机器人过程自动化:天
  • 人工智能中的自然语言处理系统