如何理解DataRobot模型:深入研究模型精度[第3部分]

时间:2019-03-13 20:10:41 阅读:52次

  我第一次参加驾驶考试时,失败了。驾驶考官说我有很好的汽车控制,但我失败了,因为我没有在小山开始时使用我的手刹。尽管我的小山开始进展顺利,但是除非我总是使用手刹,否则教练并不相信它总能如此顺利。

<! - more - >

  同样适用于AI - 良好的整体表现可能还不够。即使您的AI具有高准确度分数,也许它有一个对您很重要的弱点。您还想知道AI何时不确定该怎么做。在这种情况下,您希望AI将决策分类为可以调查和应用一般知识和常识的人。

  

  “我们应该像我们彼此一样谨慎对待AI解释 - 无论机器多么聪明。如果它不能比我们更好地解释它正在做什么......那么就不要相信它。“麻省理工学院技术评论

  在本系列的第一篇博客中,我们介绍了如何理解DataRobot模型的备忘单。在第二篇博客中,我们研究了如何比较不同模型的准确性。

  在这篇博客中,我们将重点介绍以绿色标记的备忘单部分。重点是确定人工智能何时准确,何时不确定或不准确的情况。

  从历史上看,算法越复杂,它就越难以理解。更保守的组织只会部署易于理解的简单算法,但这种选择是以准确性为代价的,有时候证明这种算法非常昂贵。其他更具竞争力的组织在不了解其优势和劣势的情况下将模型部署到生产中,但这种选择是以意外行为为代价的,这有时会损害其声誉和品牌价值。但是,在不准确或难以理解之间做出选择的日子即将结束。自动化机器学习使得有可能快速,轻松地发现何时可以信任AI以做出决策,而不是需要友好帮助人类的困难案例,无论使用何种简单或复杂的算法

  

功能适合

  即使您的整体模型精度很高,您的模型也可能有盲点。对于某些输入值而言,它可能比对其他输入值更准确,即它可能比其他输入更确定某些决策。有些决定可能比其他决定更重要,例如:关于VIP客户的决定。您需要防止AI意外变得偏见,例如以不同方式对待女性和男性。如果您了解模型更不确定的位置,那么可能会为您提供更多决策所需的额外数据以及提高其准确性的想法。要实现这些目标,您需要按输入要素值深入了解精度。

  

  以上是适用于模型的功能的屏幕截图,该模型可预测个人贷款变坏的可能性,并根据申请人对其现有信贷额度的百分比使用情况进行深入分析。橙色线是在一系列信用额度值范围内变坏的平均贷款比例。蓝线是贷款恶化的可比平均预测概率。当橙色和蓝色线条更近时,模型更准确。我们也更喜欢橙色和蓝色线经常相互交叉的地方,蓝线更平滑,因为这意味着模型正在捕捉底层图案(或信号)并忽略运气(或噪音)。

  如何解释上面的特征拟合图表:

  •   橙色和蓝色线经常交叉,蓝色线条更平滑。因此,我们相信该模型正在消除运气,保持潜在的模式,而不是普遍高估或低估结果。


  •   对于较低的信用额度值,橙色和蓝色线之间的差距较大,这意味着该模型对于没有信用额度的贷款申请人的结果不太确定他们使用的信贷额度与贷款申请人相当,而贷款申请人的信贷额度已接近最大值。


      

    随时间变化的准确度

      有时,您建模的过程会随着时间的推移而变化。例如,人们的行为在不断变化,您经营的竞争环境也在不断变化。模型可能会准确一段时间,但随后会发生变化,模型不再准确。或者模型精度可能是季节性的,例如,模型在冬季可能比夏季更准确。要检查模型随时间的稳定性和准确性,您需要绘制一段时间内的精度。

      

      上图显示了零售商日常销售的准确性。橙色线是每天的实际销售额,而蓝线是预测的销售额。当橙色和蓝色线条更近时,模型更准确。我们也更喜欢蓝线捕捉数据中明显的季节性影响。

      如何解释上面的准确度:

  •   蓝线紧跟橙色线,遵循每周周期并正确捕获数据中的最高峰和低谷。我们可以放心,该模型正确捕捉季节性效果和重大事件(例如商店在2013年圣诞节期间关闭)。


  •   蓝线沿着整个日期范围的橙色线。因此,我们可以得出结论,模型的准确性在不同时间内是稳定的。


  •   蓝线在2014年2月初出现飙升,与数据不符。我们应该调查是否在我们的数据中错误地指定了假期。


  •   橙色线在2014年3月下旬出现峰值,与蓝线不匹配。我们应该调查是否存在未包含在我们常用数据源中的特殊事件或营销活动。


      

    提升图

      为了使模型准确,它必须善于预测高点和低点,而不仅仅是平均值。提升图表通过显示模型如何将高值(例如,找到最有可能购买产品的客户)与低值(例如,找到不适合产品的客户)分开来传达准确性。它还向您显示模型与数据中的高点和低点的匹配程度。

      

      以上是模型的升力图的屏幕截图,该模型可预测个人贷款变坏的可能性。橙色线是恶化的贷款的平均比例,而蓝线是贷款变坏的可比平均预测概率。在图的左侧是具有最低预测变坏概率的贷款。右边是最坏的可能性贷款。

      当橙色和蓝色线条彼此靠近时,模型更准确。当考虑整个结果范围内的准确性时,我们也更喜欢橙色和蓝色线经常相互交叉的地方,因为这意味着该模型并不总是过高估计或低估。精确模型显示实际值中最大的垂直范围,橙色线。对于是/否建模案例(二元分类),更好的模型在垂直范围的中间几乎没有值,因为这意味着模型不确定答案是肯定还是否答的例子相对较少。

      但有时您只关心特定范围内的准确度。例如,如果您预测客户有兴趣购买您的产品的概率,那么您可能更关心高预测值的准确性而不是低预测值,因此您可以拒绝这些贷款申请。或者,您更关心十分位数5到8的准确性,因为这些是在您可以资助之前需要额外注意的贷款。关键在于准确性意味着不同的事情取决于业务环境,因此您需要深入了解准确性以确定模型精度是否满足您的需求。

      如何解释上面的提升图:

  •   橙色和蓝色线交叉多次,表明模型不会一直高估或低估。


  •   橙色和蓝色线条通常偏离0.03,橙色线条有时向下倾斜,这表明即使模型具有预测性,它也不是很准确。这可能是因为在个人贷款还清的几年内会发生许多意外事件。


  •   蓝色和橙色线都逐渐向上倾斜,中间高度范围内有许多值,最大预测值为0.27。这表明在这些情况下很少有明确的是或否预测。该模型可用于对贷款申请人的信用质量进行排名,但在预测哪些特定贷款会变坏时效果不佳。


      

    预测分布图

      对于是/否用例,模型将输出概率。有时概率正是你想要的,例如保险公司希望使用您要求的概率设定价格,并且没有是或否。在其他情况下,您希望AI做出是或否决定,在这种情况下,您需要将预测的概率转化为决策。您可以创建一个业务规则,将每个输出概率转换为是或否,这通常通过选择阈值概率来完成。高于该阈值的每个概率都成为肯定的决定,其余的概率变为无决定。例如,如果客户购买您产品的概率为99%,那么您会在营销活动中将其包括在内,而如果概率为0.1%,则选择不将其包含在广告系列中。在这两个范围之间的某个位置是一个阈值,其中概率足够高,没有决定变成肯定的决定。

      

      您可以通过考虑每个阈值的成本和收益来确定最佳概率阈值。例如,您可以预测一个人患癌症的可能性,并且需要进行昂贵且危险的手术:

  •   当您作出肯定决定但患者没有患癌症时会出现假阳性。误报的代价是手术费用,外科手术的风险,以及您对患者造成的不必要的压力。


  •   当你做出没有决定但患者确实患有癌症时会发生假阴性。假阴性的代价是患者的癌症继续增长和扩散,导致进一步的健康并发症,甚至死亡。


  •   当你做出正确的决定时会出现真正的正面。患者接受他们需要的手术。这样做的好处是可以让患者获得更好的健康和更长的寿命,减少手术费用。


  •   如果你没有做出正确决定,就会出现真正的否定。患者避免了不必要的手术和不必要的担心。


      您将选择概率阈值,以实现收益与成本和风险的最佳平衡。将阈值提高可以减少误报的数量(是的决定应该是没有决定的),但代价是增加假阴性的数量(没有决定应该是肯定的决定)。

      在大多数情况下,某些数据行将得出中等概率,其中存在是和没有结果的混合 - 在这种情况下,我们可能希望将这些困难的决策分类为人。预测分布图使我们能够理解不同概率阈值的影响,并查看处于不确定概率范围内的决策比例。

      

      上面的屏幕截图显示了抵押贷款违约的预测分布图。紫色区域是未默认贷款的预测概率的直方图。绿色区域是默认贷款的预测概率的直方图。蓝线是当前选择是或否决策的概率阈值。准确的模型在紫色和绿色区域之间不会有太多重叠。决策不确定性的区域是紫色和绿色区域重叠的区域,两个区域都不占主导地位。

      如何解释上面的预测分布图:

  •   大多数紫色和绿色区域不重叠。这意味着该模型通常可以明确地将是的决策与没有决策分开。


  •   对于0.2到0.6的概率范围,紫色区域和绿色区域都不占优势。此范围内的预测概率将无法准确选择是或否结果 - 该模型在对这些案例的信用评分排名方面是合理的,而不是在决定贷款是否会变坏的明确是或否决定时。如果您需要明确的是或否结果,而不是概率,那么当预测的概率在此范围内时,您可能希望对人类进行分类。

      


    结论

      信任AI的途径包括了解其优势和劣势,知道何时让其做出自动决策,以及何时将决策分类为人。您可以通过深入了解详细信息以确定决策是否更加确定以及何处不确定来确定是否信任AI的准确性。构建AI涉及培训多个机器学习算法以找到最适合您需求的算法,并且您快速检查这么多模型的可信度的唯一实用方法是使用自动化机器学习,为您提供人性化的详细见解。每个算法的准确性。如果您的AI无法告诉它强弱的地方,那么就可以更新到DataRobot以获取您可以信任的模型。

      点击此处安排DataRobot人性化模型准确性见解的演示。

      ,点击

  • 上一篇:汲取美国鲨鱼坦克数据     下一篇:拖放还不够!
    如何理解DataRobot模型:深入研究模型精度[第3部分]所属专题:模型专题 精度专题 《如何理解DataRobot模型:深入研究模型精度[第3部分]》链接:http://www.zhouchuanxiong.net/1200

    如何理解DataRobot模型:深入研究模型精度[第3部分]相关文章

  • 模型为更快,更有效的更多语言翻
  • 人工智能模型从患者数据中“学习
  • 用于手术计划的个性化心脏模型
  • MIT模型帮助计算机更像人类对数据
  • 计算机模型模拟物体识别中的神经
  • 麻省理工学院的RoboSnails模型小
  • 使用Watson OpenScale监视WML模型
  • 执行特征工程和模型评分
  • 使用Watson Studio Local在Horto
  • 使用内部部署数据训练基于云的机
  • 机器学习模型的性能评估
  • 创建并部署评分模型以预测心率衰
  • 有限访问的AI模型的有效对抗鲁棒
  • NeuNetS:自动化神经网络模型综合
  • 用于培训深度学习系统的8位精度
  • 可解释性和性能:同一模型可以同
  • Graph2Seq:图输入的广义Seq2Seq
  • IBM科学家首次展示混合精度内存计
  • 减轻AI模型中的偏差
  • 从研究论文中自动生成深度学习模
  • 新模型增强了视觉识别,以帮助AI
  • WaveNet:原始音频的生成模型
  • 如何理解DataRobot模型:理解为什
  • 如何理解DataRobot模型:解锁模型
  • 如何理解DataRobot模型:参见模式
  • 如何理解DataRobot模型:快速查找
  • 如何理解DataRobot模型:深入研究
  • 如何理解DataRobot模型:比较模型
  • 如何理解DataRobot模型
  • 产品经理在为计算机视觉模型选择
  • 使用Clarifai的评估工具提高您的
  • 计算机视觉模型:它们是什么以及
  • 引入模型评估 - 测试和提高定制培
  • 使用Clarifai的新旅行识别模型构
  • 使用Clarifai的NSFW模型,适度,
  • 云服务模型 - 了解类型,特征,优