教程:使用DataRobot估计预测分布

时间:2019-03-16 09:19:06 阅读:85次

使用DataRobot和DataRobot API

  

   <! - 多 - >

简介

  在这篇博客文章中,我们将演示如何使用Python和DataRobot API(访问我们的完整API文档)来量化和可视化预测的预期分布,这些预测分布在不同的患者再入院概率范围内。我们的主题医院。

  单次再入院预测是模型的最佳猜测,但不包括通常在训练数据中发现的采样偏差所发生的可能预测的分布。理想情况下,训练数据是整个人群的无偏见和有代表性的样本,但由于数据集只是一个样本,因此它们将包含偏差。建模最终将适合那些采样偏差。

  这些预测分布可用于评估模型置信度,对模型进行有针对性的改进,并最终以预测信心感对新数据做出决策。

  

   Bootstrapping是一种依赖随机抽样和替换的方法,它允许我们通过创建用于建模的训练数据分布来分配预测再现性的度量。通过拟合每个训练数据集来构建模型,并且将产生不同的预测。用于评估预测分布的自举的基本思想是可以通过重新采样训练数据并对来自重采样数据的样本进行推断来建模关于总体的分布。训练数据成为总体,重采样数据成为样本。由于人口未知,样本统计中与其人口价值的真实误差是未知的。在bootstrap-resamples中,'population'实际上是样本,这是已知的;因此,来自重采样数据的“真实”样本的推断质量是可测量的。

  了解预测分布在模型中增加了另一层信息和信心,可用于做出更好的决策。例如,如果模型预测再入院概率为0.4,则医院管理员可能不会采取任何行动。但是,如果预测值在0.4范围内的可信度很低,医院可能会采取不同的措施来避免代价高昂的假阴性。另一方面,建模者可以使用该信息来解释整个预测范围内给定模型的稳健性或确定性。他们可以进行模型改进,获取更多数据,或确定模型对于某些预测范围是稳定且可靠的,从而使管理员得出结论,无需进一步开发。

  以下方法向我们展示了如何使用DataRobot凭经验估计每个预测概率范围的预测分布。

  

背景和目标

  用例:

  •   预测未来30天内患者再入院的概率。


  •   医院有意预测因出院后30天内因患者再入院而被罚款的患者再入院率。


      方法:

  •   根据10K糖尿病培训数据中记录的历史再入院统计数据训练模型。


  •   训练数据包含10K个病例,包含50多个特征。


  •   训练数据还表明患者是否在解雇后30天内再入院。

  • 教程:使用DataRobot估计预测分布所属专题:DataRobot 分布 《教程:使用DataRobot估计预测分布》链接:http://www.zhouchuanxiong.net/1278