计算机通过观看视频来学习识别声音

时间:2019-03-04 16:15:29 阅读:8次
近年来,计算机在识别语音和图像方面已经非常出色:想想大多数手机上的听写软件,或者自动识别发布到Facebook的照片中人物的算法。
但是对自然声音的识别 - 例如人群欢呼或海浪崩溃 - 已经落后了。这是因为大多数自动识别系统,无论是处理音频还是视觉信息,都是机器学习的结果,其中计算机在大量的训练数据中搜索模式。通常,必须首先手动注释训练数据,除了需求最高的应用之外,所有这些都非常昂贵。
然而,由于麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员,声音识别可能正在迎头赶上。在下周的神经信息处理系统会议上,他们将展示一个声音识别系统,该系统的性能优于其前辈,但在培训期间不需要手工注释数据。
相反,研究人员对视频系统进行了培训。首先,识别场景和对象的现有计算机视觉系统对视频中的图像进行分类。然后,新系统发现了这些视觉类别和自然声音之间的相关性。
“计算机视觉已经变得非常好,我们可以把它转移到其他领域,”麻省理工学院电子工程和计算机科学研究生,该论文的两位第一作者之一Carl Vondrick说。 “我们正在利用视觉和声音之间的自然同步。我们扩大了大量未标记的视频,以学习理解声音。“















研究人员在两个带注释的录音标准数据库上对他们的系统进行了测试,其性能比最佳性能的系统高出13%到15%。在具有10种不同声音类别的数据集上,它可以按92%的准确度对声音进行分类,对于具有50个类别的数据集,它以74%的准确度进行分类。在这些相同的数据集上,人类分别为96%和81%准确。
“甚至人类都是模棱两可的,”Yusuf Aytar说,他是该论文的另一位第一作者,也是麻省理工学院电气工程和计算机科学教授Antonio Torralba实验室的博士后。托拉尔巴是该论文的最终合着者。
“我们和卡尔做了一个实验,”艾塔尔说。 “卡尔看着电脑显示器,我看不到它。他会播放录音,我会猜测它是什么。事实证明这真的很难。我可以从室外,基本的猜测告诉室内,但是当涉及到细节 - “它是餐厅吗?” - 那些细节都缺失了。即使是注释目的,任务也很难。“
补充方式
因为收集和处理音频数据所需的功率远远低于收集和处理视觉数据所需的功率,研究人员设想可以使用声音识别系统来改善移动设备的上下文敏感度。
例如,当与GPS数据结合时,声音识别系统可以确定手机用户在电影院中并且电影已经开始,并且电话可以自动将呼叫路由到预先记录的外出消息。同样,声音识别可以提高自主机器人的态势感知能力。
“例如,想想一辆自动驾驶汽车,”Aytar说。 “有一辆救护车来了,汽车看不到它。如果听到它,它可以为救护车做出未来的预测 - 它将采取哪条路径 - 纯粹基于声音。“
视觉语言
研究人员的机器学习系统是一个神经网络,因为它的结构与人脑大致相似。神经网络由处理节点组成,这些节点与单个神经元一样,只能执行基本计算但密集互连。信息 - 例如,数字图像的像素值 - 被馈送到节点的底层,节点处理它并将其馈送到下一层,下一层处理它并将其馈送到下一层,依此类推。训练过程不断修改各个节点的设置,直到最后一层的输出可靠地执行数据的某种分类 - 比如识别图像中的对象。
Vondrick,Aytar和Torralba首先在两个带注释的大型图像上训练了一个神经网络:一个是ImageNet数据集,包含1000个不同对象的图像标记示例;另一方面,由Oliva集团和Torralba集团创建的Places数据集包含401种不同场景类型的标记图像,例如游乐场,卧室或会议室。
一旦网络接受了培训,研究人员就会从照片共享网站Flickr下载的26TB视频数据中提供视频。 “这是大约200万个独特的视频,”Vondrick说。 “如果你要背对背地观看所有这些,你需要大约两年的时间。”然后他们在同一视频的音频上训练了第二个神经网络。第二个网络的目标是正确预测第一个网络产生的对象和场景标签。
结果是一个可以根据图像类别解释自然声音的网络。例如,它可能会确定鸟鸣的声音往往与森林场景和树木,鸟类,鸟舍和鸟类饲养者的照片有关。
标杆
然而,为了将声音识别网络的性能与其前辈的性能进行比较,研究人员需要一种方法将其图像语言翻译成熟悉的声音名称语言。因此,他们训练了一个简单的机器学习系统,将声音识别网络的输出与一组标准声音标签相关联。
为此,研究人员确实使用了带注释音频的数据库 - 一个包含50种声音类别和约2,000个示例。那些注释是由人类提供的。但标记2,000个示例比标记200万个更容易。麻省理工学院的研究人员网络首先接受了无标签视频的培训,其表现明显优于之前仅接受2,000个标签示例培训的所有网络。
“利用现代机器学习方法,如深度学习,你的神经网络系统中的许多层都有许多可训练的参数,”萨里大学信号处理教授Mark Plumbley说。 “这通常意味着你必须有许多例子来训练它。我们已经看到,有时没有足够的数据可以在没有其他帮助的情况下使用深度学习系统。这里的优点是他们正在使用大量其他视频信息来训练网络,然后再做一个额外的步骤,他们专门为这个特定任务组建网络。这种方法非常有前景,因为它利用了来自另一领域的现有信息。“
Plumbley表示,他和其他机构的同事都参与了为家庭安全等应用商业化声音识别软件的工作,例如,它可能会对玻璃破碎的声音作出反应。其他用途可能包括老年人护理,以识别可能与普通声音模式的惊人偏差,或控制城市地区的声音污染。 “我真的认为声音识别领域有很多潜力,”他说。
计算机通过观看视频来学习识别声音所属专题:识别 声音 《计算机通过观看视频来学习识别声音》链接:http://www.zhouchuanxiong.net/412