更好的机器学习

时间:2019-03-04 16:18:14 阅读:5次
当Kalyan Veeramachaneni于2010年加入麻省理工学院CSAIL的Any Scale Learning For All(ALFA)小组作为博士后时,他致力于大规模机器学习平台,支持从庞大的数据集构建模型。 “接下来的问题是如何将学习算法和数据分解成碎片,因此每件作品可以在本地加载到不同的机器中,并且可以独立学习几个模型,”现任ALFA研究科学家的Veeramachaneni说。
“然后我们必须分解学习算法,以便我们可以在每个节点上并行化计算,”Veeramachaneni说。 “通过这种方式,系统可以学习每个节点上的数据,然后我们可以将所有独立学习的解决方案和模型结合起来。”
到2013年,一旦ALFA构建了多个平台来实现这些目标,团队就开始出现一个新问题:将原始数据转换为大多数机器学习系统所需格式的过程中出现的瓶颈越来越大。
“机器学习系统通常需要以列式格式的协变量表,以及我们试图预测的响应变量,”Veeramachaneni说。 “从原始数据中获取这些数据的过程涉及数据的管理,同步和链接,甚至可以为变量创建想法,然后我们可以操作和形成这些变量。”
Veeramachaneni最近的研究大部分都集中在如何自动化这个冗长的数据准备过程。 “数据科学家们去硅谷的所有这些新兵训练营学习像Hadoop这样的开源大数据软件,他们回来了,说'很好,但我们仍然坚持将原始数据传到一个地方的问题我们可以使用所有这些工具,'“Veeramachaneni说。
Veeramachaneni和他的团队也在探索如何有效地整合领域专家的专业知识,“所以它不会占用太多的时间,”他说。 “我们面临的最大挑战是如何有效地使用人力输入,以及如何使交互无缝且高效。我们可以建立什么样的协作框架和机制来增加参与者的人数?“
GigaBeats和BeatDB
Veeramachaneni测试其自动化数据准备概念的一个项目是ALFA的GigaBeats项目。 GigaBeats分析来自数千名患者的动脉血压信号,以预测未来的病情。 Veeramachaneni说,使用GigaBeats,需要采取许多步骤来准备分析数据。这些包括清洁和调节,低通滤波器,以及通过应用信号电平转换提取功能。
其中许多步骤涉及人类决策。通常,领域专家知道如何做到这一点,但有时这取决于计算机科学家。 Veeramachaneni表示,在任何一种情况下,如果在管道中的后期做出的选择不能达到预期的预测准确度,就没有简单的方法可以回过头来重新审视那些人为干预措施。
最近,ALFA已经建立了一些新的平台,使这个过程自动化,将准备时间从几个月缩短到几天。为了实现数据转换的自动化和加速,同时还能够查看早期的决策,ALFA开发了一个名为BeatDB的“完整解决方案”。
“使用BeatDB,我们有可调参数,在某些情况下可以由领域专家输入,其余的都会自动调整,”Veeramachaneni说。 “由此,我们可以了解在低级原始表示阶段做出的决策如何影响最终预测的准确度效果。这种深度挖掘解决方案将所有机器学习层组合到一个管道中,然后在其上优化和调整其他机器学习算法。它真正实现了快速发现。“
既然ALFA在集成和记录人工输入方面取得了进展,该小组也在寻找更好的方式来呈现处理过的数据。例如,当向医疗专业人员展示GigaBeats数据时,“如果给予他们更好的代表性而不是向他们显示原始数据,他们通常会更舒服,”Veeramachaneni说。 “这使得提供输入变得更容易。我们的重点是改进演示文稿,以便我们可以更轻松地将输入信息输入算法,清理或修复数据,或创建变量。“
众包解决方案
在自动化ALFA的机器学习管道的同时,Veeramachaneni还为许多实际分析项目做出了贡献。最近,他一直在分析来自大规模开放在线课程(MOOCs)的原始点击数据,希望改进课件。最初的项目是根据在线点击行为确定停工(退出)费率。
“在线学习平台记录的数据来自数十万学习者的互动,”Veeramachaneni说。 “我们现在能够确定可以预测单个课程停止的变量。下一阶段是揭示停止的变量,并展示如何改进课程设计。“
MOOC项目的第一个挑战是组织数据。除了点击流数据之外,还有多个数据流,它们通常分布在多个数据库中并以多种格式存储。 Veeramachaneni已将这些资源标准化,将它们集成到一个名为MOOCdb的数据库中。 “通过这种方式,可以重复使用在数据库上编写的软件,”Veeramachaneni说。
下一个挑战是决定要查看哪些变量。 ALFA探索了各种关于MOOC行为的理论。例如,如果学生在早上学习,他或她更有可能留在课程中。另一种理论是基于将课程花费的时间除以学生正确的问题。但是,Veeramachaneni说,“如果我试图预测停止,那么就没有算法自动提出影响它的行为变量。最大的挑战是变量是由人类定义的,这造成了一个巨大的瓶颈。“
Veeramachaneni说,他们转向众包“尽可能多地接纳人数”。 Veeramachaneni说:“我们建立了一个众包平台,让人们可以提出一个想法来解决诸如停工等问题。” “另一组人可以实现这一点,例如编写一个脚本来提取每个学生的变量。”
Veeramachaneni表示,这项研究可能适用于许多领域,分析师试图根据捕获的数据预测人类行为,例如欺诈检测。银行和其他公司正在越来越多地分析其交易数据库,以试图确定进行交易的人是否真实。
Veeramachaneni说:“一个变量就是这个交易在这个人的家中发生了多远,或者这个数字与去年人们花费的总额相比如何。” “提出这些想法是基于非常相关的数据,我们都可以识别这些数据。所以众包在这里也会有所帮助。“
上一篇:通过玩游戏来学习语言     下一篇:机器学习分支出来
更好的机器学习所属专题:更好 机器 《更好的机器学习》链接:http://www.zhouchuanxiong.net/469