为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

步态机器人

2012-04-17 8页 pdf 774KB 42阅读

用户头像

is_156945

暂无简介

举报
步态机器人 第 41卷  第 4期 2006年 8月        西  南  交  通  大  学  学  报 JOURNAL OF SOUTHW EST J IAOTONG UN IVERSITY        Vol. 41 No. 4 Aug. 2006 收稿日期 : 2006203231 基金项目 :国家自然科学基金资助项目 (60575049) ,科技部国际科技合作重点项目计划 (2003DF000017) , 上海市科委国际合作项目          (041107039) 作者简介 :马培荪 (1938 - ) ...
步态机器人
第 41卷  第 4期 2006年 8月        西  南  交  通  大  学  学  报 JOURNAL OF SOUTHW EST J IAOTONG UN IVERSITY        Vol. 41 No. 4 Aug. 2006 收稿日期 : 2006203231 基金项目 :国家自然科学基金资助项目 (60575049) ,科技部国际科技合作重点项目 (2003DF000017) , 上海市科委国际合作项目          (041107039) 作者简介 :马培荪 (1938 - ) ,男 ,教授 ,博士生导师 ,研究方向为机电控制、智能机械等 , E2mail: bibo_cao@ hotmail. com   文章编号 : 025822724 (2006) 0420407208 两足机器人步态综合研究进展 马培荪 1 ,  曹 曦 1 ,  赵群飞 2 (1. 上海交通大学机器人研究所 ,上海 200030; 2. 上海交通大学图像处理与模式识别研究所 ,上海 200030) 摘  要 :把两足机器人步态综合方法分为参考轨迹法和自然动力学法两大技术流派. 根据参考轨迹获得方法的 不同 ,参考轨迹法又分为步行数据法、中枢模式发生器法和动力学模型法. 自然动力学法也可分为被动动力学法 和虚拟模型法. 在总结两大流派研究进展的基础上 ,分析了它们各自的优势和不足 ,指出了今后工作的重点 ,即 参考轨迹法需要提高步行效率和轨迹的生成速度 ,而自然动力学法需要增加功能. 最后分析了强制学习技术在 步态综合中应用的适应性和多自由度造成的组合爆炸问题. 关键词 :两足机器人 ;步态 ;强制学习 ;参考轨迹法 ;自然动力学法 中图分类号 : TP242  文献标识码 : A Rev iew of Stud ies on B iped Robot Ga it MA Peisun1 ,  CAO X i1 ,  ZHAO Q unfei2 (1. Research Institute of Robotics, Shanghai J iaotong University, Shanghai 200030, China; 2. Institute of Image Processing and Pattern Recognition, Shanghai J iaotong University, Shanghai 200030, China) Abstract: Gait designs were divided into two main categories: reference trajectory and natural dynam ics. The former is based on walking data, central pattern generator or dynam ic model. The latter is classified into passive dynam ics and virtual model control. The advantages and disadvantages of the two main gait designs were analyzed. The future study is to increase walking efficiency for reference trajectory, and to add more functions for natural dynam ics. The app lication of reinforcement learning in gait design and the p roblem of the curse of dimension were discussed. Key words: biped robot; gait; reinforcement learning; reference trajectory; natural dynam ics   现代两足机器人研究的历史已有近 40年 ,取得了很多成果 ,尤其是近几年随着驱动器、传感器、计算 机软硬件等相关技术的成熟和普及 ,出现了大量两足机器人样机. 不仅实现了平地步行 ,上下楼梯和上下 斜坡等步态 ,有的两足机器人样机甚至还可以跑步、跳舞 (如索尼公司的 QR IO [ 1 ] ) ,但是目前实用化的两 足机器人还未见报道 (娱乐机器人除外 ) ,其中一个主要原因就是步态综合问题还没有得到彻底的解决 , 尤其是在未知环境中的步态综合. 两足机器人步态综合的目标是实现步行的稳定性、高效率和适应性. 稳定性是步态综合的基本要求 , 效率和适应性是两足机器人实用化的必要条件. 两足机器人步态综合困难的原因在于两足机器人自由度多 ,动力学特性复杂 ,欠驱动和两足步行内在 的不稳定性等等. 然而人类已经很好的解决了这个问题 ,人类步行具有高效、稳定和灵活的特点 ,所以早期 两足机器人步态综合研究就从研究人类步行开始. 步态就是移动脚步的特定方式. 人们的步态各不相同 ,往往可以通过步态认出某人 ,但是如何描述步 态目前还没有统一的方法. 1953年 Saunders等提出描述人类步态的 6个因子 ( determ inants) [ 2 ] ,分别是 : Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 下划线 Administrator 下划线 Administrator 高亮 Administrator 高亮 Administrator 高亮 西  南  交  通  大  学  学  报 第 41卷 (1) 圆规步态 ( compass gait). 支撑腿长度不变 ,摆动腿长度可变 ,髋部运动轨迹为分段圆弧 ,圆弧的 半径由支撑腿长度决定. (2) 骨盆旋转 (pelvic rotation). 步行时 ,骨盆绕垂直轴旋转 ±3°左右 ,骨盆旋转相当于支撑腿长度增 加 ,从而使髋部运动更加平稳. (3) 骨盆倾斜 (pelvic tilt) . 骨盆绕前进轴旋转 ,旋转发生在双腿支撑相末期摆动腿即将离地时 ,效果 同样是使髋部运动平稳. (4) 支撑腿伸展运动 ( stance leg knee flexion). 使身体重心运动波动减少. ( 5) 支撑腿的踝关节伸展运动 (p lantar flexion of the stance ankle). 减少双腿支撑相到单腿支撑相转变 时的冲击. (6) 骨盆在侧向面内平移运动 ( lateral disp lacement of the pelvis). 使身体重心交替移动到左脚或右 脚 ,为迈腿做准备. Saunders等假设身体重心在侧向和垂向运动幅度越小则步行效率越高 ,并用该原则判断步态是否正 常. 这种对人类步态的定性描述对于步态综合很有启发性. 自从 20世纪 60年代以来 ,各国的研究者已经提出了很多步态综合方法 ,为了便于分析 ,本文中根据 是否需要关节轨迹伺服将步态综合方法分为两大类分别加以阐述 ,即参考轨迹法和自然动力学法. 当然这 种分类方法并不是绝对的 ,有些步态综合方法是两种方法的结合. 强制学习技术 ( reinforcement learning)在两足机器人步态综合研究中的应用还很少 (目前的应用多集 中于控制器参数学习 ) ,这主要因为两足机器人自由度过多造成学习空间爆炸 ,笔者认为强制学习和运动 元概念相结合是解决这一问题的可能方向. 1 参考轨迹法   参考轨迹法的主要特征是给出两足机器人各关节的运动轨迹即参考轨迹 ,然后进行伺服控制. 参考轨 迹法的核心问题是如何得到满足稳定性和效率等约束条件的关节角度、角速度和角加速度随时间变化的 轨迹 (通常用分段连续光滑的样条曲线表示 ) ,然后再进行关节的伺服控制 ,参考轨迹法是目前人们研究 最多的步态综合方法. 按照获得关节空间参考轨迹方法的不同 ,把参考轨迹法分为 3类 :步行数据法、中枢模式发生器法和 动力学模型法. 1. 1 步行数据法   步行数据法使用传感器记录人步行时的运动轨迹 ,经过处理后得到各个关节角轨迹和身体加速度、姿 态等参数. 目前商用的运动图像捕捉系统分为 3类 :基于测角计系统 ,如 Sarcos公司的 SenSuit可以直接测 量关节角 ;基于磁传感器光学系统 ,如 A scension公司的 MotionStar;基于标记的光学系统 ,如 Northern D igital公司 OPTORAK[ 3~5 ] . 此外 ,还有研究人员用力传感器测量步行时脚与地面之间的应力分布 ,测量人 步行时腿部肌肉的肌电图. 这些信息有助于对人类步行的机理进行分析. 通常经过对人类步行数据的分析和简化后用初等数学函数描述步态 ,形成参数化步态 (如以步长 ,抬 脚高度等作为参数 ) ,改变这些参数就得到不同的步态. 例如文献 [ 6 ]中 ,用步速、步长和跨高作为参数设 计两足机器人的步态. 文献 [ 7 ]中用两个步行参数和分段三次样条描述步态. 另一种方法是对人类步行数据进行运动元分析. 运动元的概念来自 B izzi等 [ 8 ]的一系列实验. 这些实 验证明在青蛙的脊髓内存在某些固定的放电模式 ,这些放电模式使青蛙腿向某固定点收缩或产生周期运 动 ,青蛙运动时的放电模式是这些固定模式的线性组合. 这些基本的放电模式称为运动元. 可见运动元是 一些基本的运动模式 ,基本运动元的组合就可以形成各种复杂的运动模式. 文献 [ 9 ]中把人体的运动分解为 3种基本运动元 :站立、下蹲和迈步 ,每个运动元包括一些参数 ,如站 立包括站立的时间和腰部的高度等. 图像捕捉设备得到的运动图像经过分析转化成上述 3种运动元的序 列 ,再经过运动学计算就得到了参数化的关节轨迹. 得到参数化步态后 ,基于某些优化准则采用各种各样的优化算法对步态参数进行优化. 优化计算需要 804 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 下划线 第 4期 马培荪等 :两足机器人步态综合研究进展 两足机器人的动力学模型 ,计算复杂度高 ,很难做到实时步态综合. 本田公司开发了一系列两足机器人 ( P1, P2, P3和 ASIMO) ,在国际上产生很大的反响 [ 10 ] . P2采用步 行数据法进行步态综合 ,首先根据参数化的步行数据计算预期的 ZMP点轨迹和落脚点的位置 ,然后用两 足机器人的动力学模型计算所需的各个关节角 ,最后进行关节空间的伺服控制. 索尼公司开发了型号为 SDR24X和 QR IO的两足机器人 ,其中 QR IO实现了平地上自由行走、踢球和小跑 ,而且可以适应高度起伏 小于 1 cm ,倾斜小于 10°的不平地面 [ 1 ] . QR IO采用与 P2类似的步态综合方法 ,可以根据脚底安装的力传 感器和身体上的倾斜计信息进行实时步态综合 ,因此可以更好地适应环境变化. 哈尔滨工业大学开发的 H IT两足足球机器人可以稳定地完成踢球动作 ,行走速度达到 0. 2 m / s,采用 了离线规划和在线调整的步态综合方法 [ 11 ] . 北京理工大学的 BHR2Z采用步行数据法进行参数化步态设 计 ,除了步行还实现了打太极拳等复杂动作 [ 12 ] . 采用步行数据法进行步态综合的还有国防科技大学的“先 行者 ”[ 13 ] . 上海交通大学机器人研究所和富士通公司外围设备研究所合作开发了 24自由度仿人机器人 JFHR[ 6, 14, 15 ] . 在研究人类步行数据的基础上 ,对 JFHR的步态用步速、步长和跨高三变量进行了参数化设 计 ,并用遗传算法根据稳定性对步态进行了优化. 在对离线步态进行修正后 , JFHR实现了稳定步行. 北京景山学校的杨歌开发了两足机器人 SRT2. 他主要研究机器人在不平地面的步态问题. SRT2利用 安装在身体上的两轴陀螺感知身体倾斜 ,安装在双脚脚底的传感器 ,感知脚和地面的接触情况 ,综合这些 信息使 SRT2可以在不平地面上实现动态平衡 [ 16 ] . 人类步行一直是两足机器人步态综合的模仿对象 ,这是因为人类步行稳定、高效和适应性好 ,但是人 类步行数据不能直接移植到两足机器人步态中. 这是因为人和机器人在质量分布、驱动器特性等方面 存在很大的差异. 因此 ,步行数据法需要大量时间寻找合适的步态参数 ,尤其是学习新步态时更是如此. 比 较有发展前途的发展方向是采用录像记录人类步行 ,经过运动图像处理 ,考虑机器人的各种约束 ,把人类 步行数据直接映射到两足机器人的关节空间. 目前最好的成果是 Nakaoka[ 9 ]实现的从演员的舞蹈录像识 别运动 ,经过运动元识别、组合和平衡控制在仿真和物理样机 HRP21S上复现了演员的舞蹈. 1. 2 中枢模式发生器法   如果说步行数据法是从外观上模仿人类步行 ,中枢模式发生器 ( central pattern generator, 简称 CPG) 法就是试图从人的运动神经控制系统的工作原理出发寻找步态综合的解决. 神经生物学研究表明动物的神经系统中存在细胞核团 ,可以自动生成放电序列 ,刺激运动神经元产生 肢体的节律运动 ,该核团称为中枢模式发生器. 目前 CPG的数学模型有很多 ,基本上可以看作相偶合振荡 器 (phase2coup led oscillator). Matsuoka[ 17 ]提出的 CPG模型具有一定的代表性 ,模型可用如下方程表示 : Tu Ûui = - ui - βvi - ∑n j =1 w ij yj + u0 + fi Tv Ûvi = - vi + yi , yi = m ax (0, ui ) , (1) 式 (1)中 ,模型由 n个神经元组成 , ui 和 vi 是第 i个神经元的状态参数 , Tu , Tv 和β是时间常数 , w ij表示神 经元之间连接的抑制强度 , u0 表示恒定的外部输入 , fi 表示反馈信号. 该模型最重要的特点是通过 fi 使 CPG可以适应外界的变化. Taga等 [ 18 ]用该模型实现了两足机器人在各种干扰情况下的稳定步行. Masaki 等 [ 19 ]在关节空间设计参数化周期轨迹 ,轨迹的相位用两个振荡子表示 ,通过传感器信息调整相位 ,在富士 通的两足机器人 HOAP21上实现了稳态步行. 其他典型的 CPG的数学模型 : Bay等 [ 20 ]用 van der Pol方程作为中枢模式发生器 ,通过试凑法调整方 程的参数实现稳定步态 ,方程参数变化可以产生不同的步态 ; M iller[ 21 ]用 CMAC作为中枢模式发生器 , CMAC的输入是步行参数 (如步长、抬脚高度等 ) ,输出是关节角轨迹 ,用试探法和机器人的简化模型产生 关节角轨迹用于 CMAC的训练 ; Zhen[ 22 ]用 BP神经网络作为中枢模式发生器 ,并用神经网络学习新的稳 定步态 ,实现了上下斜坡步态 ;富士通公司的 HOAP21 /2机器人采用称作 CPG/NP ( numerical perturbation, 数值摄动法 )的步态综合方法 ,它利用神经网络生成 CPG信号 ,然后用 NP法产生合理的步态 ,该方法具 904 Administrator 下划线 Administrator 下划线 Administrator 高亮 Administrator 高亮 Administrator 下划线 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 西  南  交  通  大  学  学  报 第 41卷 有学习速度快的特点 [ 23, 24 ] . CPG方法通过简单的数学模型就实现了两足机器人的稳定步行 ,结果令人鼓舞 ,对模仿人步态产生 和步行控制的神经机制无疑有重要的借鉴意义. 人运动控制的神经机制总体框架见图 1. 由于人神经系统 的极端复杂性 ,采用什么数学模型描述中枢模式发生器 ,如何根据感觉反馈和高级控制调节中枢模式发生 器的输出 ,特别是 CPG的设计 ,还没有系统的方法 ,目前是依靠灵感和经验 ,这些问题都有待于进一 步研究. 图 1 运动系统神经机制总体框架 [ 25 ] Fig. 1 Neural mechanism for motion 1. 3 动力学模型法   动力学模型法根据两足机器人的简化动力学模型 ,直接计算出重心的运动轨迹 ,然后利用反向运动学 方程得到关节角的参考轨迹. Technique University of Munich的两足机器人 Johnnie利用这种方法实现了在跑步机上的变速步行和 避障步行 [ 26 ] . 它采用参数模型计算重心轨迹 ,同时对机器人的运动规划添加约束以简化计算 ,控制上采用 计算扭矩法 ,利用系统的动力学模型计算给定运动所需的扭矩. Shuuji[ 27 ]通过三维倒立摆动力学模型线性 化综合步态 ,该模型在侧向和前向解偶 ,且无需任何事先的步态规划 ,该方法在实际的机器人 HRP22L上 实验成功. 动力学模型法利用了两足机器人本身的动力学特性 ,可以提高步行效率. 由于两足机器人的动力学模 型十分复杂 ,计算实时性难以保证 ,目前还只能使用简化模型 ,限制了动力学模型法的应用范围. 2 自然动力学法   自然动力学法充分利用机器人和环境交互的动力学特性 ,与参考轨迹法最大的区别是不需要规划机 器人的关节轨迹 ,也不需要轨迹跟踪 ,步态完全是两足机器人的机械和控制系统与环境相互作用而自发产 生的. 自然动力学法的显著特点是只需要提供很少的能量 ,就能实现十分自然和高效的步态. 自然动力学法的优点十分明显. (1) 控制简单 ,如康奈尔大学的机器人只需要传感器检测脚和地面的 接触状态 ,控制信号也只是简单的开关信号 ,并不需要复杂的计算 ,其中控制器的输入输出各只有 8路开 关信号 ,控制算法只有 68行 C++代码. (2) 效率高 ,能量效率和人类步行相当. 本田公司 ASIMO的能量效 率只有人类步行效率的 1 /10左右 [ 10 ] . 高效率的主要原因是不需要精确的轨迹跟踪和部分关节没有驱动. (3) 不需要繁琐的步态设计 ,步态自动产生. 自然动力学法目前主要的缺点是功能简单 ,目前只实现了三维直线步行和二维圆周步行. 自然动力学法的主要理论有 McGeer[ 28 ]提出的被动动力学理论和 Pratt等 [ 29 ]提出的虚模型控制理论. 因此 ,把自然动力学法分为被动动力学法和虚模型控制两个主要分支. 2. 1 被动动力学理论   用完全的被动动力学法 ,机器人的所有关节无须驱动 ,只依靠机器人和环境二者之间交互的动力学特 性就可以实现自发步行 ,所以称作被动步行. 因为没有能量输入 ,为了克服摩擦和脚触地时的能量损失 ,通 常在斜坡上下行时实现自发步行 ,此时重力补偿了能量损失. 这种自发的稳定步态完全是由机器人的机械 结构决定的. 完全被动步行的装置 20世纪初就已经被制造出来 ,但是被动动力学的理论分析由 McGeer[ 28 ]提出. 他用计算机对被动步行机的动力学方程进行数值计算 ,并对其进行稳定性分析. 他认为飞机发展的历史对 两足机器人研究很有启发意义 ,人们从设计无动力的滑翔机到有动力飞机 ,类似地 ,对无动力步行的研究 可以揭示出步行的机理 ,有助于开发高效步行的两足机器人. 他设计了无驱动、二维运动的无膝关节两足 014 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 第 4期 马培荪等 :两足机器人步态综合研究进展 机器人 ,机器人可以自动走下斜坡 ,实现了类人的步态 ,而且小的外界干扰对其稳定步行没有影响. 作为 McGeer理论的发展 , Steve等 [ 30 ]开发出世界上第一个完全被动步行的三维有膝关节两足机器人. 受到 McGeer方法的启发 ,美国康奈尔大学的 Steve和 Andy ,麻省理工学院的 Russ和荷兰代夫特大学 的 Martijn分别开发了基于被动动力学法的两足机器人 (图 2) [ 31 ] . 它们的部分关节有电机驱动 ,实现了平 面步行 ,而且能量效率和人类步行效率相当. 这是目前可以平面步行的两足机器人达到的最高效率. 这 3个机器人样机的共同特点是巧妙的机械设计和简单的控制策略. 下面分别介绍. 图 2 从左至右分别是代夫特大学、康奈尔大学和麻省理工开发的被动步行机器人 Fig. 2 B iped robots developed at Delft Univ. , Cornell Univ. and M IT ( from left to right) 康奈尔大学 Steve和 Andy开发的机器人有 5个内部自由度 (踝关节 2,膝关节 2,髋关节 1) ,只有踝关 节有电机驱动 ,而且电机只在支撑腿蹬离地面时才工作. 它的两臂分别和身体对侧的腿相连 ,使手臂摆动 和腿运动自动反相 ,抑制了机器人迈腿时身体的转动趋势. 膝关节有可控的插销 ,腿支撑时插销锁死使支 撑腿保持直立 ,腿在摆动状态时插销打开使摆动腿可以自由摆动. 髋关节采用两分角机构使身躯的倾角等 于两大腿倾角和的一半 ,因此身躯近似与地面垂直. 脚底呈弧形使支撑腿运动平稳. 代夫特大学和麻省理 工大学设计机器人的脚部设计也有类似特点. 麻省理工学院 Russ开发的机器人叫 Toddler (与 M iller开发的机器人同名 ). Toddler有 6个内部自由 度 (踝 2 ×2,髋 2) ,其中踝关节有驱动. 手臂和对侧腿相连 ,实现手臂和腿摆动的自动反相. 它采用强制学 习自动获得控制器参数. Toddler学习速度很快 ,可以在 1 m in内开始步行 , 20 m in学习收敛 ,还可以实时适 应地面条件变化. 学习速度快的主要原因是 Toddler的机械结构模仿无动力的被动动力学机器人 ,机械稳 定性好 ,这使学习空间大大缩小 ,其次是把前向和侧向运动控制解耦 [ 32 ] . 代夫特大学 Martijn开发的机器人叫做 Denise,其自由度配置和康奈尔大学的相同. 髋关节同样采用 两分角机构 ,膝关节也有可控插销使支撑腿保持直立状态 ,不同的是它髋关节采用人工肌肉驱动大腿向前 摆动 ,而踝关节无驱动. Martijn还通过实验证实摆动腿的快速摆动对于前向和侧向的稳定都有重要作用 , 这说明人步行时前向和侧向平衡之间存在某种耦合作用. 2. 2 虚模型控制   虚模型控制由麻省理工学院人工腿实验室的 Pratt等 [ 29 ]提出. 它的主要思想是在两足机器人上加上 虚拟的机械元件 (如弹簧、阻尼器、质量块、插销、轴承等 ) ,使机器人按照给定的轨迹运动 ,然后计算所需 要的关节扭矩. 如果不考虑虚拟的机械元件 ,计算得到的扭矩将产生与虚拟机械元件一样的作用 ,所以看 上去这些模型似连在机器人上 ,因此称作虚拟模型控制. Pratt吸收了虚模型控制的思想 ,同时充分利用机器人的自然动力学特性 ,制作了两足平面机器人 Sp ring Flam ingo[ 33 ] . 它的步态由一些直观的控制策略 (例如 ,支撑腿保持直立 ,摆动腿自由摆动 )和有限状 态机自动产生 ,同时还充分利用了机器人本身的自然动力学特性 ,以节省能量和产生自然的步态. 该机器 114 Administrator 高亮 西  南  交  通  大  学  学  报 第 41卷 人不用步态规划 ,通过以下两方面的实现了自然高效的步态. 一方面 , Pratt通过观察发现平面步行必须满足 5个条件并依此制定控制目标 :身体高度、身体倾角、 身体速度、摆腿和双腿支撑到单腿支撑转换. 控制目标的实现采用了虚模型方法和一些简单的控制策略 , 如支撑腿保持伸直以控制身体高度 ,双腿支撑到单腿支撑转换的时刻 ,由身体在双腿之间的位置决定等. 控制上通过主动力反馈控制扭矩 ,而不是控制关节角. 另一方面 ,机器人的机械结构充分模仿人类步行的特点. 膝盖装置使小腿摆动到和大腿呈直线后不能 继续向前摆动 ,实现支撑腿长度不变 ,控制上只要在膝关节加一组常力矩就可实现 ,从而简化了控制 ,而摆 动腿在空中完全自由摆动. 踝关节有弹簧作阻尼 ,实现了压力中心由脚后跟到脚趾的自然过渡 ,只是在支 撑脚离开地面时才需要能量注入. 采用串联弹性元件驱动器增加关节柔性 ,降低关节阻抗. 它的结构特点 是利用滚珠丝杠把电机的回转运动转换为直线运动 ,再通过弹簧拉动缆绳带动滑轮转动 ,从而带动关节转 动 (滑轮轴为关节轴 ). 3 强制学习技术应用展望   强制学习是机器学习领域新的分支 ,它的主要特点是试错法和延时奖励 ,即智能体以最大化奖励为目 标 ,通过和环境的交互学习状态 2动作函数. 强制学习和监督学习不同 ,它不需要给定训练样本 ,而是通过 尝试不同的动作 ,并根据动作的效果来决定哪些动作更有利于到达目标. 延时奖励是一系列动作的结果 , 因此只有动作完成后 ,才知道奖励是多少. 强制学习的特点使它非常适合步态学习 ,也非常符合人类学习步行的过程. 婴儿学走路时总是在不断 尝试不同的步态 ,这就是个试错的过程. 开始可能只是随机的动作 ,逐渐那些可以实现稳定行走的步态得 到了强化. 婴儿学步也具有延时奖励的特点 ,步态是由一系列腿部动作实现的 ,从单次腿部动作并不能判 定步行是否成功 ,成功的标准要看是否实现了可重复的稳定步行. 强制学习在两足机器人研究上已经有一些应用 ,但主要还是用于局部参数的调整 ,例如麻省理工学院 的 Toddler应用强制学习获得控制器参数 ; Univ. of New Hamp shire的 Ham id[ 34 ]应用强制学习调整 CMAC 生成的步态. 利用强制学习完全自动产生步态目前还没有成功的报道. 强制学习应用于两足机器人步态综合的主要困难在于多自由度问题. 两足机器人自由度太多 ,使学习 空间急剧增大 ,从而造成组合爆炸 ,在学习空间的完全搜索实际上不能实现. 解决这个问题可以从人类自 己得到启发. 人有约 600块肌肉 ,产生的运动组合为 2600 ,每块肌肉只有收缩和伸展两种状态 ,这远大于已 知宇宙包含的原子数量 ,但是人可以很好地控制全身肌肉 ,这说明不同肌肉之间必然有某种耦合关系. 运 动元的发现也证明了这一点. 如果适当地考虑两足机器人各自由度之间的耦合关系将大大减小搜索空间 , 解决自由度多造成的组合爆炸问题. 强制学习是两足机器人步态综合很有前途的方向 ,在低自由度的情况下目前已经取得了很好的结果. Nara Institute of Science and Technology的 Morimoto等 [ 35 ]制作了由 3个串连杆件和 2个关节组成的机器 人. 采用强制学习实现了机器人从平放到直立的站立动作. 该机器人的机械结构使站立动作的实现没有静 态解 ,必须利用机器人自身的动态特性实现站立动作. 通过 750次仿真和 170次物理样机的实际训练实现 了站立动作. 4 结 论   参考轨迹法的核心问题是如何确定满足稳定、效率、速度等要求的参考轨迹. 从动作上模仿人类步行 并不是个好办法 ,这是因为人骨骼肌肉的动力学特性和目前两足机器人的实际动力学特性相差很多. 因 此 ,人的步态对于机器人可能并不合适. 参考轨迹法的主要缺点在于必须计算和跟踪参考轨迹 ,而对于两 足机器人步行来说精确的轨迹跟踪并非必要. 参考轨迹法的优点在于步态综合相对容易 ,新步态实现快. 自然动力学法的核心问题是增加功能 ,实现更多的步态. 自然动力学法通过机械结构的巧妙设计和反 复的手工调试实现了自然的步行. 由于有些关节没有驱动 ,一方面可以提高效率 ,另一方面却使这些关节 缺乏主动功能 ,从而难以实现自由步态. 研究人步行的自然动力学特性是希望揭示人步行的内在规律 ,使 214 Administrator 高亮 Administrator 下划线 Administrator 下划线 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 Administrator 高亮 第 4期 马培荪等 :两足机器人步态综合研究进展 步态综合问题得到根本解决. 参考轨迹法和自然动力学法结合使用是十分有前途的发展方向. 例如 ,为了跨越障碍可以使用参考轨 迹法规划迈腿的轨迹 ,而平地步行时就利用自然动力学法无需对某些关节进行控制 ,充分利用机器人自身 的动力学特性以节省能量 ,如摆动腿自由摆动到下一落脚点. 强制学习技术提供了有效的学习手段 ,但由于两足机器人自由度多造成的组合爆炸问题使强制学习 在步态综合方面的应用遇到很大困难. 随着对人步行内在规律认识的加深 ,特别是自由度耦合问题的解决 将有助于解决组合爆炸这一难题. 参考文献 : [ 1 ] Sony Corporation. Sony dream robot QR IO [ EB /OL ]. http: ∥www. sony. net/SonyInfo /QR IO /. [ 2 ] SAUNDERS J B, INMAN V T, EBERHART H D. The major determ inants in normal and pathological gait[ J ]. Journal of Bone and Joint Surgery, 1953, 35A: 5432558. [ 3 ] Sarcos Inc. . Human /computer interfac[ EB /OL ]. http: ∥www. sarcos. com /humanintfc. htm l. [ 4 ] A scension Technology Corporation. Motionstar real2time motion cap ture [ EB /OL ]. http: ∥www. ascension2tech. com / p roducts/motionstar_10_04. pdf. [ 5 ] Northern D igital Inc. . Op torak centus the competitive advantage[ EB /OL ]. http: ∥www. ndigital. com /certus2benefits. php. [ 6 ] 窦瑞军 ,马培荪 ,谢玲. 两足机器人步态的参数化设计及优化 [ J ]. 机械工程学报 , 2002, 38 (4) : 36239. DOU Ruijun, MA Peisun, X IE L ing. Parameterized design and op tim isation of the gait biped robot[ J ]. Chinese Journal of Mechanical Engineering 2002, 38 (4) : 36239. [ 7 ] HUANG Q iang. Planning walking patterns for a biped robot[ J ]. IEEE Transactions on Robotics and Automation, 2001, 17 (3) : 2802289. [ 8 ] B IZZI E, DpiAVELLA A, SALTIEL P, et al. Modular organization of sp inalmotor system s[ J ]. The Neuroscientist, 2002, 8: 4372442. [ 9 ]  NAKAOKA S. Recognition and generation of leg p rim itive motions for dance im itation by a humanoid robot [ EB /OL ] ∥ Proceedings of the 2nd International Symposium on Adap tive Motion of Animals and Machines. Kyoto, 2003: 428. http: ∥ www. kimura. is. uec. ac. jp /amam2003 /ABSTRACTS/E302nakaoka. pdf. [ 10 ] KAZUO H, MASATO H, YUJ I H, et al. The development of honda humanoid robot [ C ] ∥ Proceeding of 1998 IEEE International Conference on Robotics & Automation. Leuven: IEEE Computer Society Press, 1998: 1 32121 326. [ 11 ] 杨晶东 ,洪炳镕 ,黄庆成. 双足足球机器人行走步态研究 [ J ]. 哈尔滨工业大学学报 , 2005, 37 (7) : 8762878. YANG J ingdong, HONG B ingrong, HUANG Q ingcheng. Research on walking gait based on biped soccer robot[ J ]. Journal of Harbin Institute of Technology, 2005, 37 (7) : 8762878. [ 12 ] 赵晓军 ,黄强 ,彭朝琴 ,等. 基于人体运动的仿人型机器人动作的运动学匹配 [ J ]. 机器人 , 2005, 27 (4) : 3582361, 379. ZHAO Xiaojun, HUANG Q iang, PENG Zhaoqin, et al. Kinematics mapp ing of humanoid motion based on human motion cap ture[ J ]. Robot, 2005, 27 (4) : 3582361, 379. [ 13 ] 胡洪志 ,马宏绪. 一种双足步行机器人的步态规划方法 [ J ]. 机器人技术与应用 , 2002 (3) : 16218. HU Hongzhi, MA Hongxu. Gait p lanning of a biped walking robot[ J ]. Robot Technique and App lication, 2002 (3) : 162 18. [ 14 ] 窦瑞军 ,马培荪. 基于 ZMP点的两足机器人步态优化 [ J ]. 机械科学与技术 , 2003, 22 (1) : 77279. DOU Reijun, MA Peisun. ZMP2based gait op tim ization of a biped robot[ J ]. Mechanical Science and Technology, 2003, 2 (1) : 7279. [ 15 ] 包志军 ,马培荪 ,王春雨 ,等 . 用 Zero Moment Point描述类人型机器人步行稳定的不完善性探讨 [ J ]. 上海交通大学 学报 , 2001, 35 (1) : 68271. BAO Zhijun, MA Peisun, WANG Chunyu, et al. Exp loration on faultiness of zero moment point ( ZMP) table region for biped locomotion [ J ]. J. of Shanghai J iaotong University, 2001, 35 (1) : 68271. [ 16 ] Photos from Intel ISEF 2005 [ EB /OL ]. http: ∥www. intel. com /p ressroom /archive /photos/ isef_2005_photos. htm. [ 17 ] MATSUOKA K. Mechanism s of frequency and pattern control in the neural rhythm generators[ J ]. B iol. Cybern. , 1987, 314 Administrator 高亮 西  南  交  通  大  学  学  报 第 41卷 56: 3452353. [ 18 ] TAGA G, YAMAGUCH I Y, SH IM IZU H. Self2organized control of bipedal locomotion by neural oscillators in unp redictable environment[ J ]. B iol. Cybern. , 1991, 65: 1472159. [ 19 ] MASAKIO, YUTAKA K, MASAH IRO A, et al. Reinforcement learning of humanoid rhythm ic walking parameters based on visual information[ J ]. Advanced Robotics, 2004, 18 (7) : 6772697. [ 20 ] BAY J S, HEMAM IH. Modelling of a neural pattern generatorwith coup led nonlinear oscillators[ J ]. IEEE Transactions on B iomedical Engineering, 1987, 34 (4) : 2972306. [ 21 ] M ILLER W T. Control of variable2speed gaits for a biped robot[ J ]. IEEE Robotics & Automation Magazine, 1999, 6 (3) : 19229. [ 22 ] ZHEN Yuanfang. Reinforcement learning for a biped robot to climb slop ing surface[ J ]. Journal of Robotics System, 1997, 14 (4) : 2832296. [ 23 ] FUM IO N. A motion learning method using CPG/NP [ EB /OL ] ∥ Proceedings of the 2nd International Symposium on Adap tive Motion of Animals and Machines. Kyoto, 2003: 428, http: ∥www. kimura. is. uec. ac. jp /amam2003 /PAPERS/ E152nagashima. pdf. [ 24 ] J IANG Shan, FUM IO N. Neural locomotion controller design and imp lementation for humanoid robot HOAP21 [ EB /OL ]∥ Proceedings of the 20 th Annual Conference of the Robotics Society of Japan. O saka, 2002, http: ∥www. fujitsu. com / downloads/GLOBAL / labs/papers/hoap3. pdf. [ 25 ] N ICHOLLS J G, MARTIN A R, WALLACE B G, et al. 从神经生物学 2从神经元到脑 [M ]. 杨雄里译. 北京 :科学出版 社 , 2003: 522. [ 26 ] LOHME IER S, L; FFLER K, GIENGER M , et al. Computer system and control of biped“Johnnie”[ C ]∥ Proceedings of the IEEE International Conference on Robotics and Automation. New O rleans: IEEE Computer Society Press, 2004: 4 22224 227. [ 27 ] SHUUJ I K. A realtime pattern generator for biped walking[ C ]∥ Proceeding of the 2002 IEEE international Conference on Robotics & Automation. W ashington: IEEE Computer Society Press. , 2002: 31237. [ 28 ] McGEER T. Passive dynam ic walking[ J ]. Int. J. Robotics Res. , 1990, 9: 62282 [ 29 ] PRATT J , CHEW C M , TORRES A, et al. V irtual model control: an intuitive app roach for bipedal locomotion [ J ]. The International Journal of Robotics Research, 2001, 20 (2) : 1292143. [ 30 ] STEVE C, MARTIJN W , ANDY R. A three2dimensional passive2dynam ic walking robot with two legs and knees[ J ]. The International Journal of Robotics Research, 2001, 20 (7) : 6072615. [ 31 ] STEVE C, ANDY R, RUSS T, et al. Efficient bipedal robots based on passive2dynam ic walkers[ J ]. Science, 2005, 307: 1 08221 085. [ 32 ] RUSSELL L T. App lied op timal control for dynam ically stable legged locomotion [ D ]. Massachusetts Institute of Technology, 2004. [ 33 ] PRATT J . Exp loiting inherent robustness and natural dynam ics in the control of bipedal walking robots[D ]. Massachusetts Institute of Technology, 2000. [ 34 ] HAM ID B. B iped dynam ic walking using reinforcement learning[D ]. University of New Hamp shire, 1996. [ 35 ] MOR IMOTO J, DOYA K. Acquisition of stand2up behavior by a real robot using hierarchical reinforcement learning[ J ]. Robotics and Autonomous System s, 2001, 36: 37251. (中文编辑 :秦  瑜   英文编辑 :刘  斌 ) 414
/
本文档为【步态机器人】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索