构建人工智能时避免人为错误

时间:2019-03-12 18:26:37 阅读:17次

你能相信你的人工智能是否正确建造?

  自从我上一次参加数据科学竞赛以来,已经有三年多的时间了,但是在我的脑海里仍然有一个关于这场比赛的记忆。我花了一个忙碌的一周在我的电脑上编写一个很酷的解决方案,我准备提交我的第一个参赛作品。鉴于我之前比赛的结果,我有信心获得高排名。所以,我点击提交并等待我的竞争排行榜排名 - 并发现我排在倒数第二位!

<! - more - >

  在最初的震惊和失望之后,我回顾了我的工作。回到比赛编码的第一天,我犯了一个愚蠢的编码错误并使用了错误的列名。这个模型毫无价值。整整一周的工作都被浪费了。这很令人尴尬,但是谢天谢地,我的模型只是为了娱乐,而不是一个关键任务业务应用程序,可能会造成数百万美元的损失或可能影响生死决定的医疗应用程序。

  大多数现代人工智能AI)应用程序都是由机器学习算法提供支持,直到最近,大多数机器学习算法都是手动构建的。与所有手动任务一样,编码和模型设计容易出现人为错误,在构建全新且复杂的解决方案时更是如此。我们需要的是带有护栏的开发工具,用于警告和防止数据科学家犯下危险的错误。

  随着企业向数据科学民主化发展,人为错误的风险也随之增加。现代软件工具使公民数据科学家能够更轻松地构建预测模型。然而,尽管机器学习开始前所未有的轻松和快速,但危险在于仍然存在许多用户需要应用以获得可靠结果的最佳实践。但大多数机器学习解决方案要求用户具备手动应用最佳实践的知识和经验。它们不包含保护新手人才的最佳实践或保障措施。

  

数据科学护栏

  数据科学护栏是什么样的,它们如何帮助?我将使用Lending Club发布的个人数据作为案例研究。 Lending Club是全球最大的点对点借贷平台。 Lending Club向投资者提供历史数据,允许这些投资者开发信用评分模型,以便更好地选择和承销其贷款投资。如果这些信用风险模型存在缺陷,投资者可能会因不良贷款而亏损。

  某些输入要素不属于信用风险模型,因为您在评估贷款申请时不会知道其值,或者因为它们只是您尝试预测的值的代理。数据科学家将此目标称为泄漏。

  结果

  寻找具有自动检测目标泄漏的护栏的机器学习工具。在上面的屏幕截图中,最终的贷款状态已被标记为导致目标泄漏。在贷款期限最终确定之前,最终的贷款状态是未知的,只是贷款变坏的代理。已经学会用最终贷款状态预测不良贷款的模型没有任何价值。

  某些输入要素不属于模型,因为它们不包含有用信息,或者是重复项或其他列。

  结果

  寻找具有护栏的机器学习工具,该护栏可自动检测无信息列和重复列。在上面的屏幕截图中,DataRobot已从模型中排除了成员ID,因为它是数据库行标识符。已排除付款计划值,因为该列中只有无关紧要的行数与通常值不同。已排除初始列表状态,因为所有行都包含相同的值。过去12个月的债务催收价值与另一栏的重复,因此它们也被排除在外。无信息和重复的列可能会导致某些机器学习算法出错,或者更糟糕的是,它们可能导致算法“学习”数据中仅仅运气的模式。

  许多真实数据库包含缺失值。然而,许多流行的算法和统计模型不接受包含缺失值的数据行。有些库会丢弃这些数据行而几乎没有警告。如果没有这些数据行,模型很可能会做出有偏见的预测。例如,Lending Club数据中的大多数行从未有过负面信用操作,因此包含缺失值。对Lending Club数据进行培训的模型排除了负信用行为缺失值的数据行将过于悲观,并且不会得知负信用行为的缺失值表明存在良好风险。寻找机器学习工具,自动识别包含缺失值的数据,并了解如何最好地为每种类型的算法估算缺失值。

  历史上,统计模型的准确性是根据训练的数据来衡量的。但预测模型的真正价值在于它们对新数据的应用程度。因此,最佳做法是根据样本外数据来衡量模型的准确性。

  结果

  寻找机器学习工具,自动将历史数据分区为单独的培训和验证数据。将模型精度与模型未经过训练的新数据进行比较。护栏应确保仅对模型的验证准确性进行比较,而不是对培训数据进行比较。在上面的屏幕截图中,您可以看到DataRobot如何应用护栏将数据划分为训练,验证和保持,并根据交叉验证的准确性对模型进行排名。如果没有这些护栏,您的模型选择可能会偏向于能很好地匹配历史的模型,但却没有足够的概括来生成对数据的准确预测。

  结果

  人类在选择算法时会有偏见。有些是保守的,总是使用相同的熟悉算法,而有些则受到最新机器学习库的炒作的影响。寻找带有护栏的机器学习工具,以便仅选择最适合训练数据的算法,并客观地对各种算法进行排序,以找到性能最佳的模型。

  很容易忘记模型选择比准确性更多。一些人工智能应用程序对时间要求很高,因此需要寻找一种数据科学工具来测量每个模型的预测速度,并应用护栏来推荐具有速度和精度最佳平衡的模型。在上面的屏幕截图中,您可以看到DataRobot如何使用推荐部署模型的徽章标记模型,并识别具有最高精度的模型和速度与准确性之间的强平衡。

  

结论

  手动构建现代AI应用程序是一个高风险的过程。正如他们所说,没有人是完美的,人为错误会妨碍你在AI中的成功。

安永警告说,你的AI“可能会出现故障,被故意破坏,并以可能或可能不会立即明显的方式获取(并编纂)人类的偏见。这些失败对安全,决策和可信度产生了深远的影响,并可能导致代价高昂的诉讼,声誉受损,客户反抗,盈利能力下降和监管审查。“

   Guardrails提供警告并实施最佳实践,以防止在构建AI应用程序时出现代价高昂的错误。 DataRobot是自动化机器学习领域的领导者,是唯一一款具有护栏的机器学习工具,用于目标泄漏,无信息列,缺失值,数据分区,样本外精度,算法选择以及许多其他最佳实践保护措施。点击此处了解有关DataRobot护栏的更多信息,或观看DataRobot护栏的实时演示。

  

  

构建人工智能时避免人为错误所属专题:人工智能专题 《构建人工智能时避免人为错误》链接:http://www.zhouchuanxiong.net/1163

构建人工智能时避免人为错误相关文章

  • 率先塑造计算和人工智能的未来
  • 使用人工智能来设计材料的属性
  • 3Q:Aleksander Madry建立值得信
  • 学生小组探讨了人工智能的伦理维
  • 研究发现商业人工智能系统中的性
  • 校友呼吁麻省理工学院支持人工智
  • 为下一代人工智能构建硬件
  • 人工智能建议基于食物照片的食谱
  • 奥巴马总统与媒体实验室主任Joi
  • 人工智能产生逼真的声音,愚弄人
  • 马文明斯基,“人工智能之父”,
  • 马文明斯基对人工智能的终身成就
  • MIT举办与人工智能电影相关的活动
  • 建立符合道德标准的人工智能
  • IBM AA AI在AAAI人工智能会议上发
  • 硬件的未来是人工智能
  • IBM科学家在人工智能应用程序中展
  • 人工智能的时代 - 以及将提供它的
  • 麻省理工学院和IBM:将我们的“思
  • 2017年CVPR的IBM研究:通过计算机
  • AI医生:人工智能如何帮助医学 -
  • 搜索引擎的历史:从索引卡到人工
  • AI Sport,运动员多久才开始使用
  • 我们与学术界合作推进人工智能领
  • 管理人工智能的九种方式就像管理
  • 人工智能如何预测哈里王子和梅根
  • 竞争也有利于人工智能
  • 与Matt Zeiler在2019年的最佳人工
  • 驾驭人工智能:面部识别的承诺
  • AI&amp; SaaS:SaaS平台使用人工
  • 人工智能让世界变得更加包容的3种
  • 人工智能第一世界的设计和用户体
  • 可解释的人工智能:它是如何工作
  • 合规风险人工智能:富有成效的会
  • 人工智能的未来:人工智能世界24
  • 2018年的人工智能