机器学习的数据准备

时间:2019-03-13 20:09:23 阅读:39次

  您希望通过AI改变您的业务。您知道其好处:增加收入,降低成本,降低风险。您可以在业务的各个部分看到AI的潜力。

<! - more - >

  你知道如果你想成功,你必须重新考虑AI过程。缩短从数据到应用程序的周期时间。如果每个项目需要数月或数年才能实现,则无法实现目标。旧的做事方式太慢了。

  要加快流程,请寻找瓶颈。与您的数据科学家交谈,并询问他们如何花时间。答案:弄乱数据。数据收集和准备。许多数据科学家称之为“数据争论”或“数据准备”。

  他们会告诉你,这是数据科学工作中最糟糕的部分。您重视数据科学家并希望保留它们。修复数据准备瓶颈应该是您的首要任务。

  

数据准备瓶颈

  为什么数据准备消耗时间并造成如此痛苦?

  机器学习的数据准备包括四个不同的任务:

  • 数据访问
  • 初始数据分析
  • 采样和分区
  • 特征工程

      数据访问:数据科学家从文件和源系统复制数据。他们操纵数据来创建单个表。他们使用的工具取决于数据源。对于存储在关系数据库中的数据,它们使用SQL。对于存储在Hadoop中的数据,它们使用Hive,Pig或Spark。对于文件和其他格式,数据科学家使用Python,R或SAS等工具。

      初始数据分析:数据科学家进行分析以检查数据质量。数据科学家识别没有信息价值的字段。这些包括常量,空格和重复。该分析有助于数据科学家做出特征工程决策。

      抽样和分区:数据科学家以两种方式使用抽样。数据科学家从宇宙中获取记录样本。这将训练数据集减少到方便的大小。数据科学家使用抽样将数据划分为训练,测试和验证数据集。采样不当会产生偏差模型。此任务需要注意并注意以获得最佳结果。

      特征工程(或特征化):这是数据准备过程的最后一步。数据科学家使用每种算法准备数据以获得最佳结果。他们使用许多不同的技术来完成这项任务有关特征工程的信息,请阅读本文。

      特征工程是四项任务中要求最高的。它也需要花费最多的时间。

  • 大多数数据科学家可以访问和检索数据
  • 初始数据分析相对较快
  • 数据科学家知道如何创建样本和分区

      成功的功能工程是不同的。它需要深入了解机器学习技术。每种技术都需要不同的治疗方法数据科学家必须知道为每种技术准备数据的最佳方法。

      特色工程就像指挥交响乐团一样。成功的大师了解每一种乐器。如果你想告诉大号演奏者如何演奏一个乐段,你需要了解很多关于大号的知识。功能工程也是如此。如果您希望从不同的机器学习技术中获得最佳结果,您需要了解每种技术的工作原理。

      

    DataRobot自动化数据准备

      您希望更快地交付AI。数据准备是一个关键瓶颈。 DataRobot自动化是解决方案。

       DataRobot评估数据的质量。与某些工具不同,它不仅仅突出问题。它修复了它们。 DataRobot在数据中查找没有信息值的字段。这简化了数据收集过程。用户不必先找到并删除这些字段。

       DataRobot对您的数据进行采样和分区。你不必告诉它这样做。用户不能“忘记”创建样本来验证模型。他们不能通过一行代码来引入偏见。您可以相信DataRobot做得对。您不必检查新手用户的工作。这是另一个问题解决了。

      

    DataRobot自动化特征工程

      最重要的是,DataRobot可自动化特征工程。 DataRobot测试了许多不同的技术来构建模型。它知道所有这些。它知道如何使用每种技术准备数据以获得最佳结果。根据每种算法的特点,它将:

  • 执行单热编码
  • 估算缺失值
  • 标准化变量

       DataRobot也适用于复杂的技术,如:

  • 单变量可信度估计
  • 类别计数
  • 文本挖掘
  • 搜索差异
  • 搜索比率

      您需要一个专家团队来提供DataRobot的内置知识。有关DataRobot如何自动化功能工程的更多信息,请阅读此博客文章。

       DataRobot不会告诉您该怎么做。它不会“引导”您完成数据准备任务。它就是这样做的。像一个沉默的管家。

      

      

  • 机器学习的数据准备所属专题:机器学习 《机器学习的数据准备》链接:http://www.zhouchuanxiong.net/1190

    机器学习的数据准备相关文章