2017年CVPR的IBM研究:通过计算机视觉帮助人工智能系统

时间:2019-03-06 18:39:48 阅读:37次

  本周,IBM Research将参加7月21日至25日在夏威夷檀香山举行的计算机视觉和模式识别会议(CVPR)。作为一项重要的计算机视觉活动,它是研究人员,学者,学生甚至投资者了解该领域最新进展的地方。 IBM今年的出席包括多篇论文,演示和邀请演讲,展示了我们为人工智能系统提供视力的进展,使他们能够解锁可以改变行业的重要视觉见解和决策。

  我们期待在下面列出的一个演示文稿中与您见面。或者前往CVPR工业博览会的IBM Research#230展台,与我们的一些科学家会面,了解我们正在开展的工作。我们将演示恐怖电影摩根(与20世纪福克斯合作)的第一部认知电影预告片,我们在大师赛和温布尔登部署的系统,用于自动生成体育亮点,我们的先进技术图像字幕系统(MS-COCO顶级入门),我们努力利用计算机视觉帮助医生检测皮肤癌,Watson视觉识别服务等等。

  以下是我们在CVPR活动的快照:

   口头

   S上。 J. Rennie,E。Marcheret,Y。Mroueh,J。Ross和V. Goel。图像标题的自我批判序列训练

   2017年7月22日星期六

沃森说:“一只绿色的小鸟坐在碗上。”

  图像字幕是机器感知和人机交互的基本问题,因为它需要将原始视觉输入转换为自然语言描述。在本文中,我们讨论了Microsoft COCO Image Captioning Challenge,并描述了我们的字幕系统,该系统目前在该任务中排名第一(参见表-C5,C40)。

  我们系统的高性能取决于一种新颖的强化学习(RL)技术,我们称之为自我关键序列训练(SCST)。作为一种基于RL的方法,SCST可以直接优化不可微分度量,并消除与传统地面实况序列训练方法相关的偏差 - 探索替代图像描述,然后根据相关奖励进行演变。与传统的RL方法相比,SCST避免估计未来的奖励,而是利用与当前系统输出相关的奖励来规范其收到的奖励,最终提升系统性能。

  我们的系统是一个深度神经网络,经过培训,可以直接从原始图像数据中构成图像描述,无需任何中间监督,并结合注意机制来学习模态之间的对应关系,从而使其能够“专注”作曲时图像的不同部分。虽然我们系统的输入是图像,而我们系统的输出动作是单词,但模型和训练方法都非常通用,并且可以演变为解决机器感知和人机交互中的更一般问题 - 两者都是通向更普遍的人工智能,应用仅限于我们的想象力。

   聚光灯

   Y. Lu,A。Kumar,S。Zhai,Y。Cheng,T。Javidi和R. S. Feris。多任务网络中的全自适应特征共享及其在人员属性分类中的应用

   2017年7月22日星期六

  本文的核心贡献是一种自动确定最佳深度学习架构的方法,可以同时,高效,准确地解决多个任务。使用单个深度网络模型(而不是多个单独的模型)解决多个任务对于实现更快的计算和低内存占用非常重要。然而,如何设计合适的网络架构以同时解决多个任务仍然是一个悬而未决的问题,并且当前的方法通常依赖于基于试错类型系统的手动探索,这是耗时且容易出错的。我们提出的方法使用一种新算法自动化这个过程,该算法决定每个任务应该与谁共享每个网络层的特征。在CelebA面部属性分类数据集上,我们的方法获得了最先进的精度,模型更紧凑,速度提高了3倍。

   海报

   A. Joshi,S。Ghosh,M。Betke,S。Sclaroff和Hanspeter Pfister。使用分层贝叶斯神经网络个性化手势识别

   2017年7月22日星期六

  没有两个人以完全相同的方式表达,因此这个IBM研究院(与哈佛大学和波士顿大学合作)团队的论文描述了使用个性化模型来教导系统在不同手势的主题变体内和之间学习。这项工作的主要技术创新在于使用数据有效的贝叶斯神经网络,它可以从很少的标记示例中学习,并指导未标记手势的交互式标记。从应用程序的角度来看,该模型的性能可能有助于理解机场地勤人员的行动,即使他们之间存在微妙的手势差异。这种个性化模型在其他领域也有广泛的应用,包括医疗保健。该团队正在继续扩展该系统并教会其直接从视频数据中识别手势,从而减少对运动数据的需求。

   L. Karlinsky,J。Shtok,Y。Tzur和A. Tzadok。使用单一示例培训对数千个对象类别进行细粒度识别

   2017年7月22日星期六

  本文讨论了快速检测和识别大量(数千)对象类别的问题,同时对非常有限的示例进行培训,通常每个类别一个。此任务的示例包括:(i)在无约束照片中检测和识别超市货架上的零售产品,同时对每个产品的一个图像进行培训(例如,使用商店的在线目录); (ii)检测品牌标识; (iii)在单个2D图像内检测3D物体及其各自的姿势。基于如此少的示例构建检测器对于当前基于最佳表现(深度)学习的技术提出了重大挑战,这些技术需要大量数据来训练。在这项工作中,我们成功地证明了它在现有和我们自己的基准测试中的各种实验中的实用性,以实现最先进的性能。

   A. Amir,B。Taba,D。Berg,T。Melano,J。McKinstry,C。Di Nolfo,T。Nayak,A。Andreopoulos,G。Garreau,M。Mendoza,J。Kusnitz,M。 Debole,S。Esser,T。Delbruck,M。Flickner,D。Modha。基于事件的低功耗手势识别系统

  空气吉他 - 10种不同的手和手臂姿势之一IBM研究人员训练神经网络识别。

   2017年7月23日星期日

  作为人类,我们理所当然地认为我们能够看到一个人并立即认出他们是在向我们挥手还是拍手。大脑快速完成,不会过热或耗尽能量 - 如果您在笔记本电脑或智能手机上尝试相同的任务,就会发生这种情况。为了弥补这一差距,IBM研究人员开发了IBM TrueNorth神经突触处理器,该处理器包含一百万个像大脑皮层一样组织的人工神经元。在本文中,IBM科学家使用了一个特殊的iniLabs DVS128事件摄像机,模仿哺乳动物视网膜后的TrueNorth处理器,运行神经网络,训练他们识别10种不同的手和手臂姿势。该系统是基于事件的,这意味着它只会在其所看到的内容发生变化时作出反应。这使系统能够以更低的功率运行 - 低于200 mW。例如,该型号可以使AI应用程序足够高效,可以通过智能手机或自动驾驶汽车关闭电池电源。

  该团队还制作了他们用于训练可供下载的神经网络的数据集 - 这是首批提供给该领域的基于事件的数据集之一。

   H. Xu,J。Yan,N。Persson,W。Lin和H. Zha。分形维不变滤波及其基于CNN的实现

   2017年7月23日星期日

  本文提出了一种基于局部分形分析技术的新型非线性滤波器。该滤波器通过CNN实现,不仅保留了局部分形维数的不变性,而且还增强了隐藏在图像中的结构信息。希望将此滤镜应用于材质分析或照片编辑应用程序,例如从照片生成绘画风格的图像。这是设计分形维数不变滤波器的第一次尝试,同时也将基于分形的图像模型与基于CNN的方法连接起来。

   S. Zhai,H。Wu,A。Kumar,Y。Cheng,Y。Lu,Z。Zhang和R. S. Feris。 S3Pool:使用随机空间采样汇集

   2017年7月23日星期日

  许多认知系统都是在展示大量示例的基础上进行教授的,他们看到的越多,他们就越了解。本文的核心贡献是通过改变深度卷积神经网络中池化层的操作,提供一种允许深度学习的方法,只需很少的训练样例。我们观察到,尽管传统池化层中的规则间隔下采样从信号处理角度来看是直观的(其目标是信号重建),但它不一定是学习的最佳点(目标是概括)。我们研究了这个方面并提出了一种带有随机空间采样(S3Pool)的新型汇集策略,其中常规的下采样被更通用的随机版本取代。我们的方法可以提高准确度,特别是在只有少数培训示例可用的情况下。

   车间

   Michele Merler,Dhiraj Joshi,Quoc-Bao Nguyen,Stephen Hammer,John Kent,John Smith,Rogerio Feris。使用多模式兴奋功能自动策划高尔夫亮点

   2017年7月21日星期五

   IBM的人工智能视频集锦系统,用于自动策划2017年温布尔登最令人兴奋的亮点

  制作体育精彩套餐,总结游戏最激动人心的时刻,是广播媒体的重要任务。然而,它需要劳动密集型视频编辑。在本文中,IBM科学家提出了一种自动策划体育亮点的新方法,该方法利用视频和音频AI技术,并利用它创建高尔夫高光卷轴编辑辅助系统,该系统已在2017年Masters高尔夫锦标赛中使用。概念验证将计算机视觉和其他领先的人工智能技术结合在一起,可以收听,观看和学习高尔夫锦标赛的实时视频,并自动识别和策划最激动人心的瞬间和镜头,分段可用于在线突出显示包。该团队进一步构建了该系统,为温布尔登锦标赛创建了一个解决方案,该解决方案不仅仅是选择和策划各个细分市场,还为Wimbledon编辑团队在温布尔登网络数字平台上的使用自动创建一到两分钟的亮点包。

  计算机视觉中的女性主要工作坊:盲人的计算机视觉。 Chieko Asakawa

   7月26日星期三

  在本次演讲中,IBM研究员Chieko Asakawa将讨论可以帮助视障人士的新兴技术。盲人一直梦想着能够识别物体,人和周围环境的机器。多年来,这类机器只在科幻小说中出现,但现在由于深度学习和计算机视觉技术的进步,新的解决方案正在成为现实。

  计算机视觉研讨会中的张量方法:一种新的张量代数 - 理论与应用。 Lior Horesh

   7月26日星期三

  张量有助于揭示驻留在高维空间中的潜在相关性。尽管它们适用于机器学习,语音识别和成像中的广泛应用,但张量和矩阵代数之间的不一致性已经迫使它们具有更广泛的实用性。寻求克服这些差异的研究人员已经引入了几种不同的候选扩展,??每种扩展都带来了独特的优势和挑战。本教程将回顾一些常见的张量代数定义,讨论它们的局限性,并介绍新的t-tensor产品代数,它允许将线性代数概念和算法优雅地扩展到张量。

  保存

  保存

  保存

  保存

  保存

  保存

  保存

2017年CVPR的IBM研究:通过计算机视觉帮助人工智能系统所属专题:人工智能专题 《2017年CVPR的IBM研究:通过计算机视觉帮助人工智能系统》链接:http://www.zhouchuanxiong.net/850

2017年CVPR的IBM研究:通过计算机视觉帮助人工智能系统相关文章

  • 新的合作通过人工智能激发全球与
  • 3Q:Aleksander Madry建立值得信
  • 人工智能系统使用透明的,类似人
  • 为下一代人工智能构建硬件
  • 人工智能有助于材料制造
  • 利用人工智能改善早期乳腺癌检测
  • 真正的人工智能热情
  • CSAIL与业界合作推出人工智能计划
  • 麻省理工学院媒体实验室参与了27
  • 人工智能产生逼真的声音,愚弄人
  • 建立符合道德标准的人工智能
  • 人工智能服务的实况报道
  • 在ICLR 2018年探索人工智能前沿
  • 硬件的未来是人工智能
  • 2017年CVPR的IBM研究:通过计算机
  • 搜索引擎的历史:从索引卡到人工
  • 政府和人工智能:在省钱的同时提
  • 人工智能:它可以改变我们的生活
  • 互联网零售商独家:人工智能体验
  • 人工智能将增强我们,而不是取代
  • 利用模糊匹配和人工智能识别重复
  • 竞争也有利于人工智能
  • 与Matt Zeiler在2019年的最佳人工
  • AI在电影中:人工智能的一切超越
  • 人工智能正在改善旅游业的5种方式
  • 人工智能正在影响艺术世界的3种方
  • 人工智能比人类认知更好吗?
  • 人工智能内容审核:3关键问题及答
  • 内容审核人权:人工智能如何帮助
  • Clarifai精选黑客:通过人工智能
  • 推动人工智能革命的要素?
  • 人工智能如何重塑电子商务领域?
  • 人工智能与机器人过程自动化:天
  • 人工智能工作:专家很少但报酬很
  • 人工智能的最大挑战:人工智能系
  • 人工智能软件定义