在强化学习中发现特征选择的新算法

时间:2019-03-06 18:36:58 阅读:17次

  顺序决策通常涉及规划,行动和学习在不同时间尺度上的时间延长的行动过程。在强化学习(RL)框架中,“选项”(表示预先计划的原始动作序列)可以加速学习和计划。但是,自主识别好的选择或“选项发现”仍然是一个悬而未决的问题。 “Eigenoptions”(基于环境中的扩散信息流的表示)可以用于促进RL问题域中的探索。我们的ICLR 2018论文,通过Deep Successor Representation的Eigenoption Discovery,由Marlos C. Machado,Clemens Rosenbaum,Xiaoxiao Guo,Miao Liu,Gerald Tesauro和Murray Campbell,将eigenoptions的使用扩展到具有随机转换的设置,其中表示状态来自原始感官数据。我们展示了使用Atari游戏的方法的承诺。

用于探索的特征选择

  去年在ICML引入了“eigenoptions”的概念(Machado等,2017)。它将选项框架与“图拉普拉斯算子”(状态和状态转换矩阵)的频谱分析相结合,这是2005年在ICML上首次提出的RL(Mahadevan,2005)。马查多等人。表明在“表格”情况下(每个状态是一个不同的节点),特征向量分析产生了一组不同的选项,这些选项对于RL中的探索是有用的。他们还可以使用特征而不是表格表示来训练特征函数的有效线性函数逼近。

利用后继代表

  我们的ICLR论文通过以下新贡献扩展了这项工作。首先,我们的方法扩展到具有随机状态转换的环境,而先前的本征选择计算需要确定性(和对称)状态转换。其次,我们超越了手工制作特征的线性函数逼近,而不是原始传感数据的一般非线性函数逼近。这两个都是通过利用“后继表示”(Dayan,1993)来实现的,该“后继表示”估计给定起始状态最终访问其他州的累积折扣概率密度。具体来说,我们通过使用一种新算法在大量样本状态转换上训练深度神经网络来学习后继表示(SR)。我们的方法与Kulkarni等人最近的工作有关。 (2016)基于训练原始输入像素的自动编码器表示来估计SR。我们使用类似于Oh等人的预测架构而不是自动编码器。 (2015),其中从当前帧和当前动作预测下一帧。这样可以了解操作的影响以及代理控制下环境的哪些部分。请注意,这些先前的工作都没有采用选项框架。

通过Atari验证

  我们通过在两个不同的领域进行大量实验,获得了我们方法的经验验证。第一个域,“四个房间”,是一个网格世界问题,具有状态的表格表示和从一个状态到相邻状态的确定性转换。第二个领域包括Atari游戏Bank Heist,Montezuma's Revenge和Pac-Man女士。选择这些游戏是因为它们各自需要不同类型的技能。我们使用Atari游戏显示的原始像素代替表格状态表示来表示当前的游戏状态。在这两个域中,我们收集状态转换的随机样本以估计SR,然后使用SR来计算本征选择。在Four Rooms域中,我们获得了比原始操作更大的性能改进,如图1所示。

  图1 :(左)“四房”表格域的图示。 (中心)我们进行了一组实验,其中训练事件在状态S1开始并在状态G1结束;绘制了不同数量的本征选择的学习曲线。 (右)第二组实验的发作从状态S2开始到G2结束;绘制得到的学习曲线。在两个实验中,本征选择优于原始动作RL,较少数量的本征选择(4,8,32)往往比较大数字(64,128)更有效。

  在Atari游戏中,如图2所示,我们对发现的本征选择进行定性评估。这些数据表明,每个本征选项几乎都花费在其终端位置,表明本征选择确实是有目的的。我们还可以看到,我们的算法将代理推入角落和状态空间的其他相关部分(特别是在Montezuma的Revenge中),证实了本征选择改善探索的直觉。

图2:三个Atari游戏中几种不同学习本征的状态 - 访问密度图:(左)Bank Heist,(Center)Montezuma's Revenge和(右)Pac-Man女士。在每个游戏中,每个选项由具有独特颜色的化身描绘,并且颜色的暗度指示化身位置的访问密度。请注意,本征选项的大量访问对应于其终端状态。

  虽然目前有很多关于选项的工作,但是从原始传感器数据中自动发现选项却很困难。我们的工作提供了一种新颖的概念方法的原则组合,以应对RL中选项发现的挑战。

  如需进一步阅读,可在此处找到有关我们工作的独立且更详细的博文:https://manantomar.github.io/2018/04/10/blogpost.html

  参考文献:

彼得达扬。改进时态差异学习的推广:后继表征。 Neural Computation,5(4):613-624,1993。

   Tejas D. Kulkarni,Ardavan Saeedi,Simanta Gautam和Samuel J. Gershman。深层接班人强化学习。 CoRR,abs / 1606.02396,2016b。

   Marlos C. Machado,Marc G. Bellemare和Michael Bowling。强化学习中期刊发现的拉普拉斯框架。在Proc。国际机器学习会议(ICML),第2295-2304页,2017年。

   Sridhar Mahadevan。原始价值功能:发展强化学习。在Proc。国际机器学习会议(ICML),第553-560页,2005年。

Junhyuk Oh,Xiaoxiao Guo,Honglak Lee,Richard L. Lewis和Satinder P. Singh。动作 - 在Atari Games中使用Deep Networks进行条件视频预测。 “神经信息处理系统进展”(NIPS),第2863-2871页,2015年。

在强化学习中发现特征选择的新算法所属专题:算法 强化 《在强化学习中发现特征选择的新算法》链接:http://www.zhouchuanxiong.net/792

在强化学习中发现特征选择的新算法相关文章

  • 使用深度学习生成餐厅评论
  • 使用OpenCV和深度学习在视频中跟踪对象
  • 开发一个使用机器学习的基于Web的移动健康应用程序
  • 在Kubernetes上部署和使用多框架深度学习平台
  • 创建一个Web应用程序以与机器学习生成的图像标题进行交互
  • 创建一个Web应用程序,以便与使用机器学习检测到的对象进
  • 机器学习模型的性能评估
  • 构建机器学习推荐引擎,以鼓励基于过去购买行为的额外购买
  • 使用内部部署数据训练基于云的机器学习模型
  • 使用Watson Machine Learning和IBM Db2 Warehouse on Cloud持续学习
  • 部署深度学习驱动的“魔术裁剪工具”
  • 使用机器学习预测心脏病
  • 使用Watson OpenScale监控自定义机器学习引擎
  • 使用Watson OpenScale监控Sagemaker机器学习
  • 使用机器学习和高级分析分析物联网传感器数据
  • 使用Watson OpenScale监控Azure机器学习
  • 从计算机中学习大脑,反之亦然
  • 机器学习分支出来
  • 更好的机器学习
  • 通过玩游戏来学习语言
  • 更灵活的机器学习
  • 深度学习算法可以预测照片在“近人”级别的可记忆性
  • 像人一样学习的机器
  • 建筑学习的先驱,名誉教授Seymour Papert在88岁时去世
  • 计算机通过观看视频来学习识别声音
  • 从图片中学习单词
  • 利用机器学习来改善患者护理
  • ML 2.0:许多机器学习
  • 麻省理工学院健康机器学习的Abdul Latif Jameel诊所旨在彻底改变疾病预防,检测和治疗
  • 机器学习系统同时处理语音和对象识别