更灵活的机器学习

时间:2019-03-04 16:17:27 阅读:7次

机器学习是大多数商业人工智能系统的基础,本质上是概率性的。例如,要求对特定图像进行分类的对象识别算法可能会得出结论,它有60%的概率描绘一只狗,但有30%的几率描绘一只猫。
在12月的神经信息处理系统年会上,麻省理工学院的研究人员将提出一种新的机器学习方法,使语义相关的概念能够相互促进。因此,例如,对象识别算法将学习比“狗”和“猫”的共同出现更严重地权衡分类“狗”和“奇瓦瓦”的共现。
在实验中,研究人员发现,使用他们的训练策略的机器学习算法可以更好地预测人类用户在Flickr网站上应用于图像的标签,而不是使用传统培训策略时。
“当你有很多可能的类别时,处理它的传统方式是,当你想要为每个类别学习模型时,你只使用与该类别相关的数据,”麻省理工学院的Chiyuan Zhang说。电气工程和计算机科学研究生,以及新论文的主要作者之一。 “它同样不利地对待所有其他类别。由于这些类别之间实际上存在语义上的相似性,因此我们开发了一种利用该语义相似性来从近似类别借用数据来训练模型的方法。“
他的论文顾问Tomaso Poggio,Eugene McDermott脑科学和人类行为学教授,以及他的第一作者Charlie Frogner,也是Poggio小组的研究生,加入了论文。计算机科学和人工智能实验室的博士后Hossein Mobahi和壳牌石油公司的研究员Mauricio Araya-Polo完成了论文的合着者。
关闭计数
为了量化语义相似性的概念,研究人员编写了一种算法,该算法通过Flickr图像来识别倾向于共同发生的标记 - 例如,“阳光”,“水”和“反射”。两个词的语义相似性是它们共同发生的频率的函数。
通常,训练用于预测Flickr标签的机器学习算法将尝试识别始终对应于特定标签的视觉特征。在训练过程中,它会被认为是正确的每个标签,但是对于失败的预测会受到惩罚。
麻省理工学院研究人员的系统基本上为不正确的标签提供了部分功劳,这些标签在语义上与正确的标签相关。比如说,水景被标记,其中包括“水”,“船”和“阳光”。通过传统的机器学习,一个标记该图像“水”,“船”,“夏天”的系统没有比标记它“水”,“船”,“犀牛”的信用更多的信用。随着研究人员的系统,它会,并且信用将是标签“夏天”和“阳光”的可能性的函数。 “在Flickr数据库中共存。
问题在于,分配部分信用涉及更简单的计算,而不仅仅是将预测评分为真或假。例如,一个没有完全正确的标签的系统 - 例如“湖”,“帆”和“夏天” - 与只产生一个巨大错误的系统相比 - 比如“水”,“船” ,“和”犀牛“?
为了执行这种类型的复杂评估,研究人员使用称为Wasserstein距离的度量,这是一种比较概率分布的方法。即使两年前,这本身也非常费时,但2014年,京都大学的Marco Cuturi和牛津大学的Arnaud Doucet提出了一种更有效地计算Wasserstein距离的新算法。麻省理工学院的研究人员认为,他们的论文是第一个使用Wasserstein距离作为监督机器学习中的误差度量,其中系统的性能是根据人类注释来衡量的。
人为错误
在实验中,即使成功标准只是预测Flickr用户已经应用于给定图像的标签,研究人员的系统也优于传统的机器学习系统。但是,当成功的标准是预测与Flickr用户在语义上类似的标签时,差异就更加严重了。
这听起来似乎是循环的:一个系统,它在语义相似性方面具有更好的预测语义相似性。但是当Web用户试图在线查找图像时,一般的主题对应可能比关键字的精确交集更重要。
此外,用户分配给任何给定Flickr图像的标签可以是杂色分类。根据语义相似性聚类的自动生成的标签可能比人类应用的标签更有用。例如,研究人员的测试集中的一张图片描绘了一名身穿制服的山地自行车手戴着防撞头盔沿着丘陵小径骑行。实际的标签是“春天”,“种族”和“训练”。但是图像中的树木是裸露的,草是棕色的,标签“种族”和“训练”不可能都是正确的。研究人员的系统提出了“道路”,“自行车”和“小道”;传统的机器学习算法产生了“狗”,“冲浪”和“自行车”。
最后,如果对语义相似性概念的某些其他度量被证明能够更好地捕捉人类直觉而不是Flickr标记的共现,那么麻省理工学院研究人员的系统可以简单地采用它。事实上,人工智能研究中一个长期和正在进行的项目是“本体论”的集合,它将分类术语分层次地联系起来 - 狗是动物,牧羊犬是狗,Lassie是牧羊犬。在未来的工作中,研究人员希望在机器视觉研究中使用本体标准来测试他们的系统。
“我认为这项工作非常具有创新性,因为它直接使用Wasserstein距离作为设计学习机器的一种方式,”Cuturi说,他没有参与当前的工作。 “从技术角度来看,作者必须处理比较非标准化直方图的问题” - 而不是概率分布,这就是Wasserstein距离的设计目标。 “他们提出了一个非常优雅的解决方案,这种解决方案具有良好的动力和计算效率。”

更灵活的机器学习所属专题:灵活 机器学习 《更灵活的机器学习》链接:http://www.zhouchuanxiong.net/452