Adversarial Robustness Toolbox v0.3.0:在AI Security中关闭后门

时间:2019-03-06 18:35:40 阅读:153次

  昨天我们宣布推出Adversarial Robustness Toolbox的新版本,这是一个开源软件库,支持研究人员和开发人员保护神经网络抵御对抗性攻击。新版本提供了一种防止机器学习模型中的中毒和“后门”攻击的方法。我们宣布在全球领先的信息安全活动Black Hat USA上发布。

后门攻击

  机器学习模型通常接受来自潜在不可信赖来源的数据培训,包括众包信息,社交媒体数据和用户生成的数据,如客户满意度评级,购买历史或网络流量[1]。最近的研究表明,攻击者可以通过使用恶意样本中毒训练集来引入机器学习模型中的后门或“特洛伊木马”[2]。由此产生的模型在正常训练和测试数据上按预期执行,但在特定攻击者选择的输入上表现不佳。

  例如,攻击者可以在经过训练识别交通标志的深度神经网络(DNN)中引入后门,以便在标准输入上实现高精度,但如果黄色便签是错误的,则将停车标记错误分类为限速标志。附在它上面。与需要将特定复杂噪声添加到图像中的对抗性样本[3]不同,后门触发器可以非常简单并且可以轻松应用于现实世界中的图像甚至物体。这对在安全关键应用程序中部署机器学习模型构成了真正的威胁。

防御后门攻击

  最新版本的Adversarial Robustness Toolbox提供了一种用于检测这些攻击的防御方法。通过检查和聚类训练样本中的神经激活,我们可以确定哪些样本是合法的,哪些样本是由对手操纵的。这种防御方法已经显示出已知后门攻击的良好结果。新版本还包括示例代码,以便用户可以在图像分类任务上端到端地测试防御方法。

  防御数据中毒是对抗性稳健性工具箱的现有功能的一个重要补充,它主要用于规避逃避攻击和防御。最终,在为AI提供安全性时,我们需要从整体上考虑防范中毒和逃避攻击。通过这样做,我们可以提高AI系统的稳健性,这是可信AI的关键组成部分。

其他新功能

  最新版Adartharial Robustness Toolbox中的其他重要新功能包括:

用于检测对手篡改的样本的新模块,以实现错误分类。
扩展DNN对抗性训练的能力,这是减少DNN漏洞的最先进方法关于对抗性样本。
用于访问DNN内部激活的新型应用程序编程接口(API),这对于分析对抗性输入的影响以及可能设计新型防御非常重要。
另外两个实现逃避攻击:基本迭代方法和预测梯度下降。
后端支持在MXNet深度学习框架中实现的DNN。
针对所有主要逃避攻击的优化算法,显着提高其对大型数据集的可扩展性。

  我们还共享Python笔记本,它们展示了这些新功能并帮助用户快速入门。此外,我们发表了一份白皮书[4],其中概述了不同攻击和防御的实施细节。由于该领域的文献发展如此之快并且相当分散,我们认为将这些信息集中在一个地方并确保其一致是很重要的。

逃避攻击的优化算法

  逃避攻击算法的优化使我们第一次将雅可比显着图攻击(JSMA)应用于高分辨率图像数据。图1显示了这种攻击的一个例子.JAMMA的特殊之处在于它只修改了图像中的一小部分像素,以实现所需的误分类。在其原始版本中,JSMA计算每对像素x i ,xj 以下数量:

  

  此处 y 表示攻击的目标类, F k 表示DNN分配给类 k <的输出 Y 是所有类的集合。然后,JSMA选择像素x i,xj ,其中α> 0,β<0且乘积|α·β|是最大的;那些对应于攻击应该改变的像素,以便改变分类器的输出。重复该过程,直到获得所需的错误分类。

  对最佳像素对的搜索和β的计算在计算上是昂贵的。我们的优化利用了分类器的输出总和为1.因此,β可以通过取 1 - Fy(x)<的偏导数来获得/ em>关于x i,xj ,它可以节省计算所有替代类的梯度。此外,可以通过选择梯度的两个最大分量来简单地确定最佳像素x i,xj 。这将搜索时间从二次变为线性。在我们进行优化之前,将JSMA应用于具有大量类的高分辨率图像数据在计算时间和内存要求方面都是令人望而却步的。

  图1:通过将对抗性噪声(中间)添加到干净的输入图像(左)而获得的对抗性示例(右)。虽然对抗示例中增加的噪声变化小于1像素,并且人类几乎察觉不到,但它导致深层神经网络将图像错误分类为“网球”。

Adversarial Robustness Toolbox入门

  查看开源版本和文档。自4月份推出以来,该项目已经聚集了近300个GitHub明星,并且分叉了70多次。

   Adversarial Robustness Toolbox支持在TensorFlow,Keras,PyTorch或MXNet深度学习框架中实现的DNN。目前,该库主要用于改善视觉识别系统的对抗稳健性;但是,我们正在开发未来版本,其中包括对语音,文本或时间序列等其他数据模式的修改。

  就未来的工作而言,我们认为应对自适应对手是下一步的关键。如果攻击者知道攻击者,他们可以有效地绕过已部署的防御措施。到目前为止,这主要以 ad hoc 方式进行了演示。借助Adversarial Robustness Toolbox,我们希望提供一个可扩展的框架,用于研究自适应对手并设计针对它们的新型防御。

  作为一个开源项目,Adversarial Robustness Toolbox的目标是创建一个充满活力的贡献者生态系统,包括来自工业界和学术界的贡献者。与类似的持续努力的主要区别在于对防御方法和实际防御系统的可组合性的关注。我们希望Adversarial Robustness Toolbox项目能够激发围绕DNN的对抗性稳健性的研究和开发,并推动在现实世界的应用程序中部署安全的AI。请与我们分享您使用Adversarial Robustness Toolbox的经验以及对未来增强功能的任何建议。

  

  

  

   Adversarial Robustness Toolbox开发人员。来自L-R:首席开发人员Maria-Irina Nicolae,Mathieu Sinn(IBM Research-Ireland),Nathalie Baracaldo和Heiko Ludwig(IBM Research-Almaden)

相关出版物

   [1]减轻对机器学习模型的中毒攻击:基于数据源的方法,Baracaldo,B。Chen,H。Ludwig,J.A。萨法维(2017年)。第10届ACM人工智能与安全研讨会论文集,第103-110页。

   [2] BadNets:识别机器学习模型供应链中的漏洞,Gu,B.Dolan-Gavitt,S。Garg,S。(2017)。 CoRR,abs / 1708.06733。

   [3]对抗性稳健性工具箱:确保AI抵御对抗性威胁,M.-I。 Nicolae,M。Sinn(2018年)。 IBM研究博客

   [4] Adversarial Robustness Toolbox v0.3.0,M.-I。 Nicolae,M。Sinn,M.N。 Tran,A。Rawat,M。Wistuba,V。Zantedeschi,N。Baracaldo,B。Chen,H。Ludwig,I.M。Molloy,B.Edwards(2018)。的arXiv:1807.01069

  

  

Adversarial Robustness Toolbox v0.3.0:在AI Security中关闭后门所属专题:AI 《Adversarial Robustness Toolbox v0.3.0:在AI Security中关闭后门》链接:http://www.zhouchuanxiong.net/764

Adversarial Robustness Toolbox v0.3.0:在AI Security中关闭后门相关文章

  • FEED 2018:将数据分析应用于地球和环境科学
  • AI for Code鼓励协作,开放科学发现
  • IBM在云中推出免费的AI工具,用于预测化学反应
  • 一种扩展谱聚类的端到端方法
  • 加入量子社区
  • 利用最优序列分组进行视频场景检测
  • 介绍AI Fairness 360
  • IBM Cloud上的AI信任和透明度
  • 转向材料科学家为更好的记忆设备
  • 在机器学习数据集中恢复平衡
  • '显示和告诉'帮助AI代理与社会价值观保持一致
  • Word Mover的嵌入:Word2Vec的通用文本嵌入
  • Graph2Seq:图输入的广义Seq2Seq模型
  • WML中与Edward的概率编程
  • WML中的Pyro概率规划
  • IBM研究AI在2018年神经信息处理系统会议上
  • Delta-Encoder:从一个图像合成一整套样本
  • 双8位突破将AI带到了边缘
  • 可解释性和性能:同一模型可以同时实现吗?
  • 用于培训深度学习系统的8位精度
  • IBM的AI实验中心将先进的技术带到您的手中
  • AI年度回顾:IBM Research AI的论文和预测摘要
  • NeuNetS:自动化神经网络模型综合以更广泛地采用AI
  • 与IBM Project Debater分享您的想法并获得视角
  • IBM凭借创纪录的一年标志着超过四分之一世纪的专利领导地位
  • 项目辩论的幕后故事 - 人群在CES上的演讲:第一部分
  • 项目辩论的幕后故事 - 人群在CES上的演讲:第二部分
  • IBM研究发布“面部多样性”数据集,推进面部识别系统公平性研究
  • IBM Research AI at AAAI 2019
  • 有限访问的AI模型的有效对抗鲁棒性评估