学习教学,加快学习速度

时间:2019-03-03 11:23:48 阅读:16次

第一个在国际象棋和游戏Go上击败世界上最好玩家的人工智能程序至少得到了人类的一些指导,并最终证明与通过反复试验完全靠自己学习的新一代AI程序无法匹敌。
深度学习和强化学习算法的结合使得计算机在诸如国际象棋和围棋,包括Pac-Man女士在内的越来越多的视频游戏以及包括扑克在内的一些纸牌游戏等具有挑战性的棋盘游戏中占据主导地位。但是对于所有的进步,计算机仍然会越来越贴近现实生活中的游戏,隐藏的信息,多个玩家,持续的游戏,以及短期和长期奖励的混合,使得计算成为最佳的移动无可救药地复杂化。
为了克服这些障碍,AI研究人员正在探索辅助技术,以帮助机器人代理学习,模仿人类不仅在我们自己,而且从我们周围的人,从报纸,书籍和其他媒体获取新信息的方式。由MIT-IBM Watson AI Lab开发的集体学习策略提供了一个有前途的新方向。研究人员表明,当代理商学会利用彼此不断增长的知识体系时,一对机器人代理可以将学习简单导航任务所需的时间缩短50%或更多。
该算法教会代理何时寻求帮助,以及如何根据此前学到的内容定制他们的建议。该算法的独特之处在于,两种代理都不是专家;每个人都可以自由地作为学生老师来请求和提供更多信息。研究人员本周将在夏威夷AAAI人工智能会议上展示他们的工作。
麻省理工学院航空航天系教授Jonathan How在论文中获得了AAAI最佳学生论文的荣誉奖。 Shayegan Omidshafiei,前麻省理工学院的研究生,现在在Alphabet的DeepMind工作;麻省理工学院的Dong-ki Kim;刘淼,Gerald Tesauro,Matthew Riemer和IBM的Murray Campbell;和东北大学的Christopher Amato。
加拿大皇家银行研究部门Borealis AI的研究主管Matthew E. Taylor说:“这种提供行动的想法最能改善学生的学习,而不仅仅是告诉学生该做什么,这可能非常强大。”谁没有参与这项研究。 “虽然本文侧重于相对简单的场景,但我相信学生/教师框架可以在Dota 2,机器人足球或灾难恢复场景等多人视频游戏中扩大规模并发挥作用。”
目前,专业人士仍然在Dota2以及其他支持团队合作和快速战略思考的虚拟游戏方面具有优势。 (虽然Alphabet的人工智能研究部门DeepMind最近在实时战略游戏“星际争霸”中击败了一名职业玩家后发布了新闻。)但随着机器在动态环境中的表现越来越好,他们可能很快就会做好像管理这样的现实任务的准备在大城市交通或在地面和空中协调搜救队。
“机器缺乏我们作为孩子们开发的常识性知识,”现任麻省理工学院 -  IBM实验室的麻省理工学院前博士后刘说。 “这就是为什么他们需要观看数百万个视频帧,并花费大量的计算时间,学会很好地玩游戏。即便如此,他们缺乏有效的方式将他们的知识转移到团队,或将他们的技能推广到新游戏。如果我们可以训练机器人向他人学习,并将他们的学习推广到其他任务,我们就可以开始更好地协调彼此之间以及与人类的互动。“
麻省理工学院 -  IBM团队的关键洞察力是,一个分裂和征服学习新任务的团队 - 在这种情况下,机动到房间的两端并同时触摸墙壁 - 将学得更快。
他们的教学算法在两个阶段之间交替。首先,学生和教师都会根据各自的步骤决定是否根据他们的信心要求或提供建议,即下一步行动或他们即将给出的建议将使他们更接近目标。因此,当添加的信息可能改善他们的表现时,学生只询问建议,而教师只给出建议。通过每个步骤,代理会更新其各自的任务策略,并且流程将继续,直到达到目标或耗尽时间。
通过每次迭代,算法记录学生的决定,教师的建议以及通过游戏的最终得分衡量的学习进度。在第二阶段,深度强化学习技术使用先前记录的教学数据来更新建议策略。麻省理工学院的研究生金说:“每次更新都会让教师更好地在合适的时间提供正确的建议。”
在AAAI研讨会上讨论的后续论文中,研究人员改进了算法跟踪代理人学习基本任务的能力的能力 - 在这种情况下,是一个推箱子的任务 - 以提高代理人的能力。给予和接受建议。这是另一个让团队更接近其进入RoboCup的长期目标的步骤,这是由学术人工智能研究人员开始的年度机器人竞赛。
“在我们打足球比赛之前,我们需要扩展到11名特工,”IBM研究员特萨罗说,他开发了第一个掌控步步高游戏的人工智能程序。 “这将需要更多的工作,但我们充满希望。”

学习教学,加快学习速度所属专题:学习 《学习教学,加快学习速度》链接:http://www.zhouchuanxiong.net/276