手机频道:为您提供一个绿色下载空间! 首页| 软件下载| 文章教程| 应用提交| 最新更新
当前位置:首页 > 手机资讯 > 攻略 > Racing Car Simulator好玩吗 Racing Car Simulator玩法简介,

Racing Car Simulator好玩吗 Racing Car Simulator玩法简介,

来源:天空软件网 更新:2023-09-14

用手机看

扫描二维码随时看1.在手机上浏览
2.分享给你的微信好友或朋友圈

程序合成构建可验证可解释的强化学习

摘要

本文主要研究如何为强化学习(RL,Reinforcement Learning)生成可解释、可验证的策略。与当前流行的深度强化学习(DRL,Deep Reinforcement Learning)范式的相关研究不同,本文的主要目的是探究一些可以用高级编程语言表示的策略。这样的程序化策略具有许多好处:它比神经网络更容易解释,并且易于通过可扩展的符号方法进行验证。程序策略的生成方法还提供了一种系统地使用领域知识来指导策略搜索的机制。这些策略的可解释性和可验证性提供了在安全攸关环境中部署基于强化学习的解决方案的机会。本文借鉴并扩展了机器学习社区和形式方法社区的工作。

关键词

程序合成;强化学习;深度强化学习;

1 引言

目前,许多强化学习领域的最新研究进展都是借助深度神经网络(DNN,Deep Neural Network)模型实现的。但是,由于 DNN 模型的基本属性,检查 DNN 模型与所需属性是否一致是非常困难的,也因此 DNN 模型被普遍认为是一种黑盒模型。随着人工智能领域研究的不断深入,众多的科研人员逐渐达成一个共识:将 DNN 方法与其他技术相结合,构建全新的模型,是人工智能研究进一步发展的必要前提。本文主要探索如何有效利用自动程序生成和深度强化学习之间的联系,并同时贡献了相应的关联方法。

本文中,作者主要提出了一个具有可解释性的程序化强化学习(PIRL,Programmatically Interpretable Reinforcement Learning)框架。该框架基于一种用领域特定语言(DSL,Domain Specific Language)表示的学习法则。该方法的一种应用场景是探究如何通过控制汽车的油门和方向盘,合成一个可以驱动汽车绕轨道行驶的程序。下面这个示例展示了由作者提出的的方法合成的加速程序:

可以看到,如上所示的合成结果非常清晰易读。然而代表类似策略的 DNN 方法则正好相反:DNN 方法产生的该类程序通常会具有三个隐藏层,每层大约包含 600 个节点。

本文的工作灵感来源于由 DSL 语言表示的结构化程序具有的三个关键优势:首先,DSL 语言采用面向人类的设计,使其较 DNN 更具可解释性;第二,DSL 语言可用于学习装置归纳偏置的隐式编码,且有利于主体概括;最后,DSL 语言允许用户使用符号程序验证技术来规范化地推理学习到的策略,并同时检查与正确属性一致性。

目前,深度学习领域已经有许多相关工作。一些工作主要研究如何使 DNN 方法更具可解释性(Montavon,Samek 和 Muller,2017);另一些工作则通过直接规范化的方式验证 DNN 方法(Katz 等,2017)的可解释性。本文展示的技术与这些方法有所不同,其主要差异在于作者提出的框架输出高级程序源代码,而这些源代码可用于替换一些由 DNN 方法表示的策略。还有一些研究(Murali 等,2018)使用神经网络,在程序合成和领域增长的环境下进行程序学习。这些方法的共同点在于它们都训练 DNN 模型指导程序搜索,而作者提出的方法则直接使用在强化学习环境下训练过的 DNN(模型),这是最明显的不同之处。

2 方法

编程语言社区的一些工作启发作者使用 DSL 语言来提供语法约束。这种约束方法其实早已在一个名为“语法制导合成”的框架中实现了规范化。除此之外,DSL 语言还提供了一种原则性机制:它可以将域知识系统地包装到策略搜索中,从而改变学习装置的归纳偏置。此外,在研究过程中作者发现:尽管 DRL 算法在端到端的学习中表现的很出色,这种算法目前似乎缺少为学习装置指定归纳偏置的手段。

PIRL 在处理策略空间时面临着一项重大的技术挑战,出现这个挑战的原因在于:尽管通过语法进行了限制,策略空间的范围依旧是非常庞大且极不平滑的,这使得直接搜索变得异常困难。为了解决这一技术难题,作者提出了一种全新的算法,并将其命名为神经指导程序合成(NDPS,Neurally Directed Program Synthesis)。NDPS 算法首先利用 DRL 技术计算具有高性能的神经策略,之后再将该网络应用于指导对程序策略的本地搜索。这种搜索思路受到了模仿学习(Ross,Gordon 和 Bagnell,2011)的启发。通过这种思路,算法可以在高度不平滑的搜索空间中进行直接搜索。但是 NDPS 算法与模仿学习配置有所不同:NDPS 仅利用专家轨线对本地程序搜索进行引导,而模仿学习配置的目的则是要完美匹配专家演示。

作者利用开发式赛车模拟器(TORCS,The Open Racing Car Simulator)环境中的汽车驾驶学习仿真任务对它们的方法进行了评估。实验证明:NDPS 算法可以从策略空间中找到一些能够通过重要指标的、具有可解释性的策略。

3 进行中的研究及未来工作

关于强化学习的程序化策略有许多有趣的方向可供科研人员进一步探索。在本项研究中,作者指出了两项值得关注的研究:

策略的合成与验证:作者提出的策略合成方法具有其独有的优势。该策略合成方法可以从 DRL 技术以及程序合成技术的提升中受益,其原因在于 NDPS 算法可以充分利用这两个领域中任意一个的最新成果。此外,作者还在研发一种全新的算法。该算法将可以通过在 DRL 策略中插入程序策略合成技术来提升神经策略和程序策略。此外,作者还在探索如何利用更强大的验证系统来对更加复杂和有用的属性进行验证。针对这项研究,作者正在开发一些方法。这些方法将在程序策略的合成过程中利用验证规范对搜索空间进行修剪。

策略的复杂应用:作者希望继续探索研究一些具有现实应用价值的复杂应用,并将研究结果在之后的论文中展示。例如目前应用 DRL 技术发现的、一些可用于治疗某些疾病的全新适应性药物疗法,这些全新疗法虽然具有一定的应用价值,但由于 DNN 技术的黑盒性质其他人很难相信这些药物是可用的,因此在申请监管部门批准时存在着一定的困难。目前,作者正与一些相关人士合作,尝试通过 PIRL 框架为这些药物产品中的神经策略生成解释性说明。这个例子反映了:生成策略的可解释性,对于基于 RL 的应用技术来说,是非常重要的。因为只有能得到人们认可的产品才具有相应的使用价值。于此同时,作者所在实验室的一些成员也正在尝试将 PIRL 框架应用于四轴飞行器的路径和任务规划问题。这些规划问题术语安全攸关领域的范畴,因为任何故障带来的损失都是灾难性的。

4 贡献与影响

DRL 模型对许多领域而言,都是查找 RL 策略不可或缺的前沿技术。因此,解决 DRL 模型中存在的一些缺陷会对这些研究的现状产生重大的影响。本文旨在解决 DRL 模型存在的两个基本问题,即如何展示 DRL 模型的可解释性和可验证性。通过对 Verma 等人于 2018 年发表的工作的学习,作者规范化地确立了一种全新的学习范式。这种全新的学习范式在解决 DRL 模型的两个弊端时展现出较好的可用性,其应用前景值得期待。

作者在正在进行的工作中提出了一种全新的算法。该算法将神经与程序的主题训练相结合,能够显著优化目前最尖端的 RL 策略查找方法,同时提升其普遍适用性。未来作者将进一步探索如何在更强的验证前提下进行策略查找,并研究如何将 PIRL 框架应用于安全攸关的物理网络系统。

本次研究的成果也许能够为探究机器学习和形式方法文献之间联系开辟全新的道路。此外,由于本研究为当前 RL 方法的主要弊端提出了一些可行的解决方法,更多具有现实应用价值的、基于 RL 的问题解决方案也许会被进一步采纳和认可。与此同时,这篇文章的研究成果也能够应用于其他机器学习技术,例如当前正由深度神经网络主导有监督式学习。

致谢

国家重点研发计划课题:基于协同编程现场的智能实时质量提升方法与技术(2018YFB1003901)和国家自然科学基金项目:基于可理解信息融合的人机协同移动应用测试研究(61802171)

本文由南京大学软件学院 2020 级硕士钱瑞祥转述

猜你感兴趣

玩家评论

[!--temp.www_96kaifa_com_cy--]
Copy 2018 www.sky-xz.com. All Rights Reserved. 藏ICP备20000196号   
本站资源均收集整理于互联网,其著作权归原作者所有,如果有侵犯您权利的资源,请来信告知,我们将及时撤销相应资源。