为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于强化学习神经网络的车速跟踪控制

2013-01-05 3页 pdf 260KB 25阅读

用户头像

is_743517

暂无简介

举报
基于强化学习神经网络的车速跟踪控制 收稿日期 : 2006 - 08 - 31 作者简介 :薛金林 (1974—) ,男 ,博士研究生 ,讲师 ,主要研究方向为汽车 测控技术及智能系统 ;张为公 ( 1959—) ,男 ,教授 ,博士生导师 ;龚宗洋 (1979—) ,男 ,博士研究生。 基于强化学习神经网络的车速跟踪控制 薛金林 1, 2 , 张为公 1 , 龚宗洋 1 (1. 东南大学 仪器科学与工程系 ,江苏 南京 210096; 2. 南京农业大学 工学院 ,江苏 南京 210031) 摘要 :提出一种用于汽车排放试验中驾驶机器人对车速跟踪控制的...
基于强化学习神经网络的车速跟踪控制
收稿日期 : 2006 - 08 - 31 作者简介 :薛金林 (1974—) ,男 ,博士研究生 ,讲师 ,主要研究方向为汽车 测控技术及智能系统 ;张为公 ( 1959—) ,男 ,教授 ,博士生导师 ;龚宗洋 (1979—) ,男 ,博士研究生。 基于强化学习神经网络的车速跟踪控制 薛金林 1, 2 , 张为公 1 , 龚宗洋 1 (1. 东南大学 仪器科学与系 ,江苏 南京 210096; 2. 南京农业大学 工学院 ,江苏 南京 210031) 摘要 :提出一种用于汽车排放试验中驾驶机器人对车速跟踪控制的新方法。该控制方法基于神经网络并结合强化学习的 自适应能力 ,通过神经网络的在线学习对车速进行跟踪控制。利用试验汽车所获得的数据 ,首先开发出用于车速控制的神 经网络模型。然后基于强化学习神经网络结构神经网络控制器以取得车速跟踪的自适应控制。在仿真研究中 ,使用 神经网络车速控制模型替代实际汽车来训练初始控制器 ,并用开发与训练好的自学习神经网络控制器用于汽车车速跟踪 控制。结果明 ,所开发的神经网络控制器具有良好的车速跟踪性能 ,控制效果明显。 关键词 :强化学习 ;神经网络 ;车速跟踪 ;驾驶机器人 中图分类号 : TP273; U467. 5  文献标识码 : A  文章编号 : 1000 - 8829 (2007) 07 - 0036 - 03 Veloc ity Track ing Con trol Ba sed on Re inforcem en t L earn ing Neura l Network XUE J in2lin1, 2 , ZHANG W ei2gong1 , GONG Zong2yang1 (⒈ Department of Instrument Science and Engineering, Southeast University, Nanjing 210096, China; 2. College of Engineering, Nanjing Agricultural University, Nanjing 210031, China) Abstract:A new app roach for tracking vehicle speeds by robotic driver during em ission testing is p resented. Based on neural net2 work and combined with adap tive capability of reinforcement learning, it can execute velocity tracking control through on2line learn2 ing of neural network. U sing the data obtained from a test vehicle, a neural network model of automotive for velocity tracking is de2 veloped at first. A neural network controller is designed based on reinforcement learning neural network framework to achieve adap2 tive control of velocity tracking. During simulation study, the velocity control neural network model is used to train p rimary controller rather than the actual test vehicle, and the developed and well2trained self2learning neural network controller is app lied to velocity tracking control. Results show that the developed neural network controller has good performance of velocity tracking, and control ef2 ficacy is obvious. Key words: reinforcement learning; neural network; velocity tracking; robotic driver   除性能、安全、舒适和成本外 ,低的能源消耗和废气排放正 成为汽车工业不断进步的主要目标。对于像欧美汽车排放 及我国新发布的汽车排放试验规范 [ 1 ] ,为保证试验精确高效地 完成就需要采用先进技术的设备 ———汽车驾驶机器人。目前 , 由我国东南大学与南京汽车研究中心联合研制出的具有自主知 识产权的 DNC系列驾驶机器人可应用于滚筒式底盘测功器上 进行汽车排放耐久性试验等多项汽车试验 [ 2 ] ,但是与国外同类 型驾驶机器人相比还有许多方面需要改进。而设计有效的车速 跟踪控制算法以提高驾驶机器人的车型适应能力和车速跟踪的 精度就是其中一个方面。 基于动作网络 /评价网络结构的强化学习神经网络是在不 需已知对象模型且没有足够知识的情况下 ,通过动作网络将系 统状态量映射为一个可能的实际动作 (系统控制量 ) ,再由评价 网络根据系统状态和系统控制量来评价系统的运行状态 ,检验 当前的控制效果 ,产生“奖或惩 ”值作为反馈以训练控制器 ,使 之对复杂的非线性、不确定、不确知系统达到有效的自适应学习 控制 [ 3, 4 ]。 本研究的目标是使用强化学习神经网络作为自适应学习工 具 ,通过基于动作网络 /评价网络结构的强化学习过程来获得神 经网络汽车速度跟踪控制器。该控制器可以直接应用于汽车速 度跟踪控制 ,并通过对实时运行车辆的连续学习 ,将进一步提炼 与改善控制器的性能 ,从而进一步提高国产驾驶机器人的车型 适应能力和车速跟踪的精度。 1 试验汽车的神经网络模型 由于不同类型的车辆、甚至同型号的不同车辆或者同一车 辆在不同的运行时刻 ,其动力学参数存在很大差异 ,需要对初始 控制器进行微小差别的校准以取得控制目标。而且在神经网络 控制器学习的起始阶段 ,用离线数据进行初始仿真研究是更可 取的。因此 ,本研究将首先开发一个用于车速跟踪学习的神经 网络汽车模型 ,但是在控制算法实时执行中 ,被看成受控对象的 神经网络汽车模型将由实际车辆所取代。 神经网络方法在车辆的建模中得到广泛的应用 ,取得了很 多成果 ,前向传播网络在其中的网络结构中担当重要角色 [ 5~7 ]。 但传统的前向传播神经网络在动态时序信号处理、非线性动态 系统控制等带有强时序行为系统的应用中存在相当大的困难 , ·63· 《测控技术 》2007年第 26卷第 7期 而动态回归神经网络包含了网络内部状态的反馈 ,利用网络内 部状态反馈来描述系统的非线性动力学行为 ,能更生动、更直接 地反映系统的动态特性 ,代表了神经网络建模、辨识与控制的发 展方向 [ 8, 9 ]。Elman神经网络是一种典型的回归神经网络 ,本研 究即基于 Elman神经网络建立具有时变的、复杂的、强非线性特 性的现代汽车速度跟踪模型。 在本研究中 ,试验用车辆为 F IAT Siena 1. 5L 5档自动变速 器轿车。车辆控制量为节气门开度或制动系统压力值α,当节 气门动作时α为节气门开度值并取其为正数 ;当制动时α为制 动系统压力值并取为负数。而输出变量为汽车速度 V。在底盘 测功机上对试验车辆进行长时间的汽车排放耐久性试验 ,由此 采集试验数据。用于汽车模型的 Elman神经网络 ,有 1个输入 层神经元 , 3个隐层神经元与 1个输出神经元 ,其特点是除了输 入层、输出层、隐层节点外 ,还有与隐层节点数相同的反馈节点 , 其输入是隐层节点输出的一步延迟 ,如图 1所示。 图 1 试验车辆的 Elman神经网络结构 图 2为用于试验车辆的神经网络输出与实验采集数据之间 的比较 ,其中图 2 ( b)为图 2 ( a)的局部放大。图示表明 ,模型输 出与车速验证数据之间相当匹配。因此 , Elman神经网络用于 试验车辆输出变量的预测是相当合适的。由于神经网络汽车模 型与实际车辆在整个运行范围中所得的数据之间高度相近 ,因 此 ,通过进一步在线学习 ,所设计的控制器将只需要较小调整 , 保证在车辆的实时运行中高效地工作。 图 2 神经网络输出与实验采集数据对比 2 强化学习神经控制 强化学习神经控制基本算法结构如图 3所示 ,由评价神经 网络 (CNN, critic neural network)和动作神经网络 (ANN, action neural network)组成。其中 CNN根据直接从环境中获取的评价 性反馈信号 r( t) (外部再励信号 ) ,积累反馈信号未来值的加权 生成评价函数 J ( t)来评价当前动作的好坏 ,而 ANN利用评价 函数来实现行为决策的优化 ,将状态 X ( t)映射为动作 U ( t)。 图 3 强化学习神经控制结构 评价神经网络 CNN用系统状态量 X ( t)和控制量 U ( t)为输 入 ,而输出为评价函数 J ( t) ,它是由 t时刻起的未来外部再励信 号的加权和 J ( t) = r( t + 1) +γr( t + 2) +γ2 r( t + 3) + ⋯ (1) 式中 ,γ为折扣因子 (0 <γ< 1) ,而外部再励信号由系统状态量 和控制量决定。 由式 (1) ,可得两个相邻时刻评价函数的关系式为 J ( t - 1) = r( t) +γJ ( t) (2)   由式 (2)可得内部再励信号 r′( t) r′( t) = r( t) +γJ ( t) - J ( t - 1) (3) 为瞬时差分 ( TD, temporal difference)误差。CNN利用 TD误差来 弥补直接反馈信息的不完全性和延迟。当 TD 误差趋向于 0 时 , CNN即可近似逼近式 (1)中评价函数。同时 CNN采用网络 本身记忆 t - 1时刻的评价值 ,这样就不需要再增加预测模型计 算的值。 动作神经网络 ANN的输入为系统的状态变量 ,输出为系统 实际控制量。控制的目的是通过 CNN和 ANN一起在线学习以 寻求一个最优控制策略 ,使未来每个时间步所获报酬的折扣和 的期望最大 ,即评价函数最大。 CNN与 ANN在网络训练过程中的能量函数分别为 ec ( t)和 ea ( t) ,表达式如下 ec ( t) = 12 [ r( t) +γJ ( t) - J ( t - 1) ] 2 (4) ea ( t) = 12 [ J ( t) ] 2 (5) 3 试验车辆车速跟踪的强化学习神经控制 3. 1 车速跟踪的强化学习神经控制 根据文献 [ 1 ]的规范要求 ,在底盘测功机上对试验车辆进 行长时间的汽车排放试验 (包括 I型试验与 V型试验 )时 ,车辆 指示车速与理论车速允许公差为 ±2 km /h。因此 ,控制目标的 实现以车速控制为核心 ,即通过提供合适的控制信号α(节气门 开度 /制动系统压力 )使得所产生的车速 V 跟随参考车速 V ref , 如图 4所示。由车速偏差 e分别得出车速变化率 Ûe及强化学习 神经控制的外部再励信号 r,强化学习神经控制器根据这些信 息输出能使实际车速跟踪参考车速的控制信号 ———节气门开度 或制动系统压力值α。如果α> 0,则控制节气门动作 ;如果α < 0,则进行制动 ,从而控制并调节试验车辆的实际输出车速跟踪 参考车速值。 根据车速跟踪的控制要求确定外部再励信号 r为 ·73·基于强化学习神经网络的车速跟踪控制 图 4 车速跟踪的强化学习神经控制 r = 0,   | V - Vd | ≤ 2 km /h - 1, | V - Vd | > 2 km /h (6) 其中 , 0代表车速跟踪成功 , - 1代表车速跟 踪失败。 3. 2 仿真计算 动作神经网络与评价神经网络都采用 3 层网络结构的 BP神经网络。动作神经网络 (车速跟踪控制器 )结构为 N 3 [ 2 - 5 - 1 ]。 二个输入分别为车辆的车速偏差 e与车速变 化率 Ûe,输出为节气门开度或制动系统压力α。隐层与输出层的 激励函数分别采用对称型 Sigmoid函数与线性函数。 评价神经网络结构为 N 3 [ 3 - 7 - 1 ]。3个输入分别为车速 偏差 e、车速变化率 Ûe与节气门开度 /制动系统压力α,输出为评 价函数 J。隐层与输出层也均使用对称型 Sigmoid函数。 在仿真中 ,使用随机产生车速数值的目标信号训练控制器。 经基于随机产生目标信号的学习来训练的控制器将有一个很大 的动态跟踪范围 ,并且在训练后能够跟踪几乎任何类型信号。 同时用带有随机选择初始权重的控制器来训练判断网络。然后 在动作网络训练后再次训练判断网络。不断重复此过程直至得 到一个令人满意的控制器 (动作网络 )。通过使用由评价网络 (最小化评价网络输出 )提供的输出信号来训练动作网络而获 取最优控制器。 根据文献 [ 1 ]中汽车污染控制装置耐久性试验 (V型试验 ) 的运行规范 ,设计一个包含加速、等速、减速工况的混合工况作 为对车辆进行车速跟踪控制的仿真算例 :起步后 15 s内加速至 相应循环的最大车速 (这里取最大车速为 48 km /h) ,等速运行 5 s,然后 3 s内减速至 32 km /h并等速运行 5 s,最后 7 s内减速停 车。图 5分别给出混合工况车速跟踪实际输出图 ( a)、车速跟 踪误差图 ( b)与相应的节气门开度与制动系统压力图 ( c) ,其 中 ,为图示方便 ,制动系统压力值恢复为正值 ,如 ( c)图中虚线 所示。仿真结果表明 ,能取得对参考车速的良好跟踪控制。 4 结束语 初步研究表明 ,强化学习神经控制技术可以作为车速跟踪 控制的新型方法。在此方法中 ,采用基于动作网络 /评价网络结 构的强化学习过程开发神经网络自适应车速跟踪控制器。这种 方法只需要少量的系统先验知识 ,并且在网络完全训练好后 ,所 开发的控制器具有以下几方面性能 : ①所用的技术将由实际车 辆数据自动学习与汽车车速跟踪有关的复杂的动态与非线性 , 不需要系统的数学模型。②所用的技术将自动适应环境与车辆 的不确定变化 ,这是目前控制系统所不具有的特性。③所设计 的控制器具有一定程度的自学习能力 ,当控制器在车辆实际操 作期间获得更多数据时 ,通过学习可以进一步改善其性能。 参考文献 : [ 1 ]  国家环境保护总局 ,国家质量监督检验检疫总局. GB 18352. 32 2005中华人民共和国国家———轻型汽车污染物排放限值及 测量方法 (中国Ⅲ、Ⅳ阶段 ) [ S]. 北京 :中国标准出版社 , 2005. [ 2 ] 陈晓冰. 基于驾驶机器人的室内汽车排放耐久性试验系统的研究 与工程实现 [D ]. 南京 :东南大学 , 2005. [ 3 ] Touzet C F. Neural reinforcement learning for behavior synthesis[ J ]. Robotics and Autonomous System, 1997, (22) : 251 - 281. [ 4 ] 徐丽娜. 神经网络控制 [M ]. 北京 :电子工业出版社 , 2003. 图 5 由神经网络所产生的车速输出 [ 5 ] 王文成. 神经网络及其在汽车工程中的应用 [M ]. 北京 :北京理工 大学出版社 , 1998. [ 6 ] W atanabe Y. Neural network learning control of automobile active sus2 pension system s[ J ]. Int. J. of Vehicle Design, 1999, 21 ( 2 ) : 124 - 147. [ 7 ] Shiotsuka T. Active control of drive motion of four2wheel steering car with neural network[ J ]. SAE Paper 980229, 1998. [ 8 ] 魏剑平 ,李华德 ,余达太 ,等. 基于回归神经网络的复杂工业对象 的建模 [ J ]. 北京科技大学学报 , 1999, 21 (4) : 406 - 408. [ 9 ] Pham D T, L iu X. A comparison of three types of neural networks for system identification[A ]. in IMACS International Symposium on Signal Processing, Robotic and Neural Networks, 1994: 568 - 571. □ (上接第 35页 ) 参考文献 : [ 1 ] 施洪昌 ,等. 高低速风洞测量与控制系统设计 [M ]. 北京 :国防工业 出版社 , 2001. [ 2 ] 王瑞福 ,等. 单片微机测控系统设计大全 [M ]. 北京 :北京航空航天 大学出版社 , 2001. [ 3 ] 韩安太 ,等. DSP控制器原理及其在运动控制系统中的应用 [M ]. 北京 :清华大学出版社 , 2003. [ 4 ] 王伯雄 ,等. 测试技术基础 [M ]. 北京 :清华大学出版社 , 2003. [ 5 ] 陈光礻禹 ,等. VX I总线测试平台技术 [M ]. 成都 :电子科技大学出版 社 , 1996. □ ·83· 《测控技术 》2007年第 26卷第 7期
/
本文档为【基于强化学习神经网络的车速跟踪控制】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索