挑选自动化机器学习试点项目的5个技巧

时间:2019-03-15 13:16:39 阅读:41次

  你卖了。您知道自动化机器学习将为您的组织带来惊人的好处。现在你需要用“证据”来说服其他人。你从哪里开始的?从本质上讲,您需要通过积极的底线影响来激励和激励利益相关者。根据我的实际经验,这里有一些关于如何选择正确的自动化机器学习试点项目的技巧,以提供让每个人都兴奋的结果。

<! - more - >

提示#1 - 可行的结果

  有效的试点项目应该提供新的见解,帮助您快速,可行的胜利 - 可行的成功的关键。通过了解您的受众,专注于为利益相关者解决正确的问题:

  •   谁需要说服模型的价值?


  •   他们认为成功的是什么,他们将如何衡量?


  •   他们关心改进哪些功能或过程?


  •   哪些信息可以推动问责制领域的绩效?


  •   您的组织如何,何时以及在何处使用模型进行决策?


  •   您的组织将根据模型采取什么行动?


      开始寻找要解决的最终目标的特定问题,并计划如何主动回答不可避免的“那又怎样?”或“现在怎样?”的问题。

      

    提示#2 - 限制试点项目范围

      

      不要试图立即解决大问题,而是使用试点项目快速试验和构建原型,然后在获得专业知识的同时扩大项目范围。减少预测范围而不是数据集大小至关重要。大多数业务问题需要在流程中执行许多步骤。考虑业务流程中的步骤并选择一个进行优化。如果您从事过数据仓库或分析工作,那么这种方法听起来应该很熟悉。从小处开始,然后逐渐增加更多。

      例如,您的利益相关者可能希望预测流失,这是一个流行的用例。一些流失是可以预防的,而其他类型则是无法控制的。您的试点项目应侧重于利益相关者可以切实控制的业务流程中的领域或步骤。例如,您可以将您的试点项目集中在改善特定细分市场和区域的客户流失预测上,而不是试图占据整个客户群。这种方法还可以帮助您隔离证据点与在无限可能的海洋中挣扎。

      

    提示#3 - 选择一个更好理解的指标

      选择一个分析粒度级别的绩效指标,例如“每年保留的客户数量”,每个人都能理解。不要试图证明您的机器学习试点与ROC曲线等数据科学指标一起工作,这对于大多数人来说很难解释。您需要将数据科学语言翻译成利益相关者将理解的业务语言。

      结果

      对于成功的试点项目,您希望选择提供决策粒度的指标。粒度是指分析单位。单位可能是销售机会,客户或交易。对于成功的试点项目或任何机器学习项目,粒度对于创建企业可以使用的模型至关重要。当前的决策是基于单个客户或访问的行为,还是基于多次交易或访问的总体行为?

      

    提示#4 - 确保有足够的数据可用

      您不需要为试点项目提供完美的数据或数PB的数据。您可以轻松地使用数据子集开始建模。从根本上说,您需要确保为所选指标预测具有强大的输入变量。强输入变量包含不同行的不同值。如果变量值没有改变,它将不包含算法进行预测的信息。

      

      不要破坏机器学习试点的潜在成功。

      机器学习通过变量值变化识别输入变量和结果之间的模式。例如,如果您的变量“Discount”在所有数据行中包含完全相同的值“0”,则它不应包含在您的输入数据集中。如果“折扣”包含跨行的波动值,例如“0”,“10”,“15”,“25”,“30”,那么您应该包括它。

      验证哪些数据已可用以及可能缺少哪些数据。例如,您的零售收银机系统可能包含已售出的产品信息和客户人口统计信息,但可能缺少相关的零售位置流量计数和天气信息,这些信息会显着影响整体零售店的绩效指标。您可以使用现有数据构建基本机器学习模型,并在将来的迭代中始终向其添加更多数据。

      要确定最小数据集大小,请考虑数据的维度和模式复杂性。这是三个简单的指导原则。

  •   对于具有少量输入功能的小型模型,每个变量值10到20条记录就足够了。


  •   对于具有20多个输入要素的中型模型,请考虑为每个变量值收集100条记录。


  •   对于具有100多个输入功能的大型模型,数据中至少需要10,000条记录。


      如果您想了解有关数据收集和准备的更多信息,请浏览我的白皮书“自动机器学习的数据准备”。我介绍了机器学习的数据收集,大小调整和其他数据准备指导该白皮书中有更详细的项目。

      

    提示#5 - 包括主题专家参与

      不要破坏机器学习试点的潜在成功。在您的第一个机器学习项目中,获得深入了解DataRobot功能的经验丰富的数据科学专家的帮助。在整个过程中,您将从中获得无价的知识,以避免犯下常见错误并确保您在未来项目中取得成功。

      

      机器学习项目是协作的,而非孤立的努力。

      关于专家参与,始终让业务领域,领域或主题专家参与机器学习项目。这个建议适用于您的试点项目和所有未来的项目。业务领域,领域或主题专家最有资格帮助正确解决问题,解决复杂问题,质疑模型结果,并在适当的背景下验证结果。

      我永远不会忘记与一家知名保险公司合作过的项目。数据仓库技术专业人员拒绝让业务部门的代表参与,直到建立完整的模型。好吧,猜猜怎么着?结果是荒谬的 - 该模型预测纽约销售代表将100%流失。模型输入数据缺少未在数据仓库中收集的关键区域级立法属性。紧接着,业务主题专家认识到物质遗漏。机器学习项目是协作的,而不是孤立的努力。

      

    推荐资源

      如果您认为我选择试点项目的五大提示很有帮助,您可能会欣赏这些点播网络研讨会:“如何避免构建不良模型”和“数据准备”自动化机器学习的基础知识。“DataRobot的其他优秀”入门“资源包括:

  •    AI成功的快速途径


  •    DataRobot大学


  •   机器学习的10个(不那么简单)步骤的自动化解决方案


      

      

  • 挑选自动化机器学习试点项目的5个技巧所属专题:机器学习 《挑选自动化机器学习试点项目的5个技巧》链接:http://www.zhouchuanxiong.net/1250

    挑选自动化机器学习试点项目的5个技巧相关文章

  • 利用机器学习识别财富管理中的潜在客户前景
  • 自动化机器学习如何赋予数据科学家权力
  • 自动化机器学习和银行业[信息图]
  • 成功的CECL符合自动化机器学习
  • 利用自动机器学习将梦幻足球分析提升到新的水平
  • 企业不能等待 - 了解自动化机器学习如何填补数据科学空白
  • 自动机器学习是真实的:托马斯达文波特和我的妈妈这么说
  • 使用DataRobot和Amazon SageMaker使数据科学团队能够应对机器学习的挑战
  • 用自动机器学习理解歌曲流行度
  • 什么是自动机器学习?
  • 面向开发人员的机器学习:谎言,真理和业务逻辑
  • 房地产AI:Ascendas-Singbridge如何使用自动机器学习
  • 制药业为何需要自动化机器学习
  • 自动机器学习是Wellen Capital的改变者
  • 如何自动化机器学习
  • 机器学习使MarkerStudy能够用更少的资源做更多事情
  • 机器学习如何帮助财富管理者深化客户关系
  • 机器学习的数据准备
  • 利用自动化机器学习来管理零售业的供需
  • 自动机器学习中需要注意的十大功能
  • DataRobot首次成为2019年Gartner数据科学和机器学习平台魔力象限中的“有远见者”
  • 利用机器学习窥视NFL教练的心理
  • 医疗保健中的自动化机器学习[信息图]
  • 爱自动机器学习的五个理由
  • 利物浦维多利亚民主党通过DataRobot实现机器学习
  • DataRobot和Qlik Partnership帮助机器学习民主化
  • 深度强化学习
  • 将机器学习应用于头部和头部的放射治疗计划颈癌
  • 使用无人监督的辅助任务进行强化学习
  • 在神经网络中实现持续学习