如何理解DataRobot模型:理解为什么预测有其价值[第8部分]

时间:2019-03-12 18:26:42 阅读:51次

  哥伦比亚大学最近发表的一篇研究论文描述了机器学习中的一个常见困境。早在20世纪90年代中期,一项具有成本效益的医疗保健计划调查了机器学习的应用,以预测肺炎患者的死亡概率,以便高风险患者可以入院,而低风险患者则作为门诊患者接受治疗。这有可能同时改善健康结果,同时降低住院费用。但是最准确的机器学习算法并不清晰。随着人们的生活在线,人们认为黑盒模型的风险是不可接受的,他们选择了一种不太准确的基于规则的算法。

   <! - 多 - >

  

  

  当他们发现奇怪的东西时,这种算法的选择得到了证实。基于规则的算法了解到,患有哮喘病史的肺炎患者死于肺炎的风险低于一般人群。这与研究显示哮喘患者死于肺炎的高死亡率相反,这是违反直觉的。进一步调查显示,入院后,患有肺炎的哮喘患者常常直接送到重症监护室,并给予他们所需的额外有效护理,从而改善预后。如果他们使用了更准确但难以理解的算法,他们可能无意中将哮喘患者的生命置于低风险并将其送回家。

  虽然您的组织可能不会做出生死攸关的决定,但使用难以理解的黑盒模型的后果仍然可能是严重的。考虑应用不公平招聘算法造成的声誉损害,数千人在电网发生故障时没有电力,将钱借给不良风险而损失,从错误销售产品到客户的销售减少,或者在计算错误后排入河中的不洁水水处理厂。

  

  在本系列的前一篇博客中,我们专注于了解模型的工作原理。我们发现了如何评估模型的准确性,哪些列和行在数据中很重要,以及如何发现模型正在使用的数据中的模式。在这篇博客中,我们将从理解模型开始转而关注上面绿色标记的备忘单部分,发现如何理解DataRobot模型所做的预测值,这些预测可以为AI做出的决策提供支持。 / p>

  历史上,统计学家建立了旨在测试单一假设的模型。结论要么假设是正确的,要么假设是不正确的。这导致简单明了的解释(例如,患者的健康状况得到改善,因为他们接受了新药治疗)。然而,当模型同时考虑多输入特征的影响时,统计模型在多变量分析中更难以解释。将结果分配给多个输入变得越来越困难。随着机器学习的引入,随着公式变得更加复杂,捕获复杂的效果和输入之间的相互作用,可解释性变得更加困难。这使得许多人对机器学习注定要成为黑盒技术感到绝望,唯一的选择是在准确性与可解释性之间。

  现代AI驱动的组织不会在预测的准确性和可解释性之间做出选择。它需要并且需要准确性和可解释性。其业务人员需要可操作的见解(例如,为什么特定客户可能会流失)。有了这些业务人员的信任和支持,AI就不会被更广泛的业务所接受。不断增加的消费者激进主义和监管限制意味着组织必须解释算法决策,因为它们会影响客户。现代人工智能驱动的组织通过使用最新一代人工智能实现了这一目标,人工友好地解释了其决策,数据科学家和商业人士都可以使用。

  

预测说明

  本博客系列中描述的见解和诊断是关于全局的,总体上是模型。但数据分析师希望洞察个人客户。营销人员希望通过算法将广告系列消息与客户选择用于广告系列的原因保持一致。业务人员希望查看详细的工作示例,以检查业务规则和常识。出于这些目的以及更多,DataRobot有预测解释。预测解释告诉我们哪些输入特征导致预测具有其值。预测解释最好通过考虑该数据点的两个方面来解释为什么数据点的预测与典型预测不同:

  • 此数据点与典型数据点有何不同?
  • 数据值的差异如何改变预测与典型预测的对比? />

      

      以上是针对Lending Club贷款数据培训的复杂算法的预测解释的屏幕截图,用于预测哪些贷款将变坏。

      表格上方的图表显示了数据集的预测分布。蓝色表示低预测,红色表示高预测。两个滑动范围定义了将计算预测解释的预测范围。由于预测解释是计算密集型的,并且旨在解释为什么预测高于或低于平均值,因此滑动范围默认仅显示非常高和非常低预测的解释。您可以通过移动滑块来更改计算的解释 - 获取所有数据点的说明,只需移动滑块即可触摸。

      该图下方的表格给出了预测解释的示例,显示了三个最高预测和三个最低预测。如果您想要更多行的解释,请不要绝望,因为预测解释可用于训练数据中的每一行,最重要的是,预测解释可用于新数据! ID是训练数据集中的行号。预测是预测值,分类项目的概率,回归项目的数量。预测之后是对预测及其相对强度具有最大影响的三个输入特征的值。对预测影响最大的输入要素位于左侧,效果最弱的输入要素位于表格的右侧。绿色加号表示输入特征导致预测更高,加号的数量表示该效果的相对强度。类似地,红色减号表示输入特征导致预测较低。

      

      将鼠标放在特征值上将显示一个窗口,显示该输入要素的全部内容。在上面的屏幕截图中,您可以看到贷款描述文本功能,该功能描述了贷款申请人如何借钱资助一部电影纪录片的新业务。

      如何解释上面的预测解释:

    身份证号为6257的排名很高的贷款很可能是因为贷款是针对小型企业,借款人想用钱来拍摄纪录片,而且借款人的信贷额度已经达到了96.1%。它的极限。所有这三个输入功能都会增加默认概率,并且会有两个标记,表明效果很重要。我们可以应用商业知识和常识来证实这种预测是有意义的并制作叙述,因为借款人已经接近他们的限制,并希望有更多的钱来资助不太可能获利的业务。
    从底部排名第三,ID为1681,贷款变坏的可能性很小,因为借款人的信贷额度为6.7%,年收入为120,000美元,过去几个月没有查询。这三个输入特征中的所有三个都降低了默认概率,并且有两个减去它们的减去标记,表明效果是物质的。我们可以应用商业知识和常识来证实这种预测是有意义的并且可以制作叙述,因为借款人是一个高收入者,他几乎没有使用他们的信贷额度并且没有积极地借钱。

      

    结论

      信任AI的途径包括了解它使用数据的方式是否合适。构建AI的途径包括训练多个机器学习算法以找到最适合您需求的算法,并且您快速找到适合的模型的唯一实用方法是使用自动化机器学习,生成预测解释每个模型的每个数据点。如果您的AI是一个无法解释其所做出的预测和决策的黑盒子,那么是时候更新到您可以信任的AI的DataRobot了。点击此处安排DataRobot的人性化见解演示,展示如何信任AI。

      

      

  • 上一篇:我们对持续测试的痴迷     下一篇:DataRobot获取Cursor
    如何理解DataRobot模型:理解为什么预测有其价值[第8部分]所属专题:理解专题 DataRobot专题 《如何理解DataRobot模型:理解为什么预测有其价值[第8部分]》链接:http://www.zhouchuanxiong.net/1164

    如何理解DataRobot模型:理解为什么预测有其价值[第8部分]相关文章