为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

动态规划问题研究

2011-12-17 9页 pdf 458KB 46阅读

用户头像

is_841448

暂无简介

举报
动态规划问题研究  2007 年 8 月 系统工程理论与实践 第 8 期   文章编号 :100026788 (2007) 0820056209 动态规划问题研究 李  端1 ,钱富才2 ,李  力3 ,高建军1 (11 香港中文大学 系统工程与工程管理系 ,香港 ;21 西安理工大学 自动化与信息工程学院 ,西安 ; 31 哈尔滨工业大学 深圳研究生院经济管理学部 ,深圳) 摘要 :  回顾动态规划在过去一些年的发展 ,特别是它在多目标优化与不可分优化问题中的可喜进展. 介绍了动态规划在解决多阶段均值2方差组合投资问题中的创造性应用....
动态规划问题研究
 2007 年 8 月 系统理论与实践 第 8 期   文章编号 :100026788 (2007) 0820056209 动态规划问题研究 李  端1 ,钱富才2 ,李  力3 ,高建军1 (11 香港中文大学 系统工程与工程管理系 ,香港 ;21 西安理工大学 自动化与信息工程学院 ,西安 ; 31 哈尔滨工业大学 深圳研究生院经济管理学部 ,深圳) 摘要 :  回顾动态规划在过去一些年的发展 ,特别是它在多目标优化与不可分优化问题中的可喜进展. 介绍了动态规划在解决多阶段均值2方差组合投资问题中的创造性应用. 旨在进一步推动动态规划的理 论研究 ,拓广它在各行各业中的应用. 关键词 :  动态规划 ;多目标优化 ;不可分优化问题 ;多阶段均值2方差组合投资 中图分类号 :  TP13         文献标志码 :  A     Research on Dynamic Programming LI Duan1 , QIAN Fu2cai2 , LI Li3 , GAO Jian2jun1 (11Department of Systems Engineering and Engineering Management , The Chinese University of Hong Kong , Hong Kong ; 21School of Automation and Information Engineering , Xi’an University of Technology , Xi’an ;31Department of Economics and Management , Harbin Institute of Technology Shenzhen Graduate School ,Shenzhen) Abstract:  Dynamic programming , when applicable , is one of the most powerful solution schemes in solving sequential decision2making problems. We summarize in this paper some recent development of dynamic programming in the past two decades , especially its significant advancement in multi2objective optimization and in nonseparable optimization problems , as well as its prominent application in multi2period portfolio selection within a mean2variance framework. The ultimate goal of this paper is to stimulate more research interests in dynamic programming , thus extending the reach of dynamic programming in optimization. Key words :  dynamic programming ; multi2objective optimization ; nonseparable optimization ; dynamic portfolio selection under mean2variance criterion 收稿日期 :2007205231 资助项目 :香港研究基金会基金 (N2CUHK445Π05) ;高等学校博士学科点专项基金 (20060700007) ;陕西省自然科学基金 (2005F15)   作者简介 :李端 ,香港中文大学系统工程与工程管理系教授、系主任 ,现任中国数学规划学会副理事长 ;钱富才 ,西安理 工大学自动化与信息工程学院教授 ;李力 ,哈尔滨工业大学深圳研究生院管理学部副教授 ;高建军 ,香港中文大学系统工程 与工程管理系博士研究生. 1  引言 无可置疑 ,Bellman 在上世纪五十年代提出的动态规划引入了决策科学中最具革命性意义的最优性原 理 ,为动态最优化奠定了坚实的基础. 过去五十年 ,动态规划在运筹学 ,控制论 ,管理科学的发展中 ,发挥了 无可比拟的领军作用 ,对这些学科的成功 ,影响卓越. 在适用的情况下 ,动态规划是求解动态决策问题的最 有效工具之一. 考虑以下的动态优化问题 : (DOP)   min f = ∑ T- 1 t = 0 f t ( x ( t) , u ( t) ) + f T ( x ( T) ) s. t . x ( t + 1) = Ht ( x ( t) , u ( t) ) ,  t = 0 ,1 , ⋯, T - 1 , 其中 , t 是整数 ,示时间阶段 , T 表示有限终端时间 , x ( t) ∈Rn 代表状态 , u ( t) ∈Rp 代表决策变量 , x (0) 为一给定的系统初始状态 , Ht (·,·) : Rn ×Rp →Rn , t = 0 ,1 , ⋯, T - 1 ,为代表状态转移的 n 维向量函数 , f 为整体目标函数 ,而 f t ( t = 0 ,1 , ⋯, T)代表各阶段目标函数. Bellman 最优性原理深刻刻画了 (DOP) 问题最优策略的一个至关重要的特性 :就最优策略而言 ,不论 当前状态是由以前何种决策所造成 ,余下的策略对当前的状态 ,亦必定构成最优策略. 最优性原理使得求 解在整个时间段上一个全局解的问题能化解为一系列在各个时间段上的局部优化问题 , min ∑ T- 1 t = 0 f t ( x ( t) , u ( t) ) + f T ( x ( T) ) = min u (0) { f 0 ( x (0) , u (0) ) + min u (1) { f 1 ( x (1) , u (1) ) + ⋯+ min u ( T- 2) { f T- 2 ( x ( T - 2) , u ( T - 2) ) + min u ( T- 1) { f T- 1 ( x ( T - 1) , u ( T - 1) ) + f T ( x ( T) ) }} ⋯}}.   定义在 t 阶段状态 x ( t)上的最优 cost2to2go 为 : J 3t ( x ( t) ) = min u ( t) ⋯u ( T- 1) ∑ T- 1 j = t f j ( x ( j) , u ( j) ) + f T ( x ( T) ) ,  t = T - 1 , ⋯,0 , 则我们根据 Bellman 最优性原理有以下递推 : J 3t ( x ( t) ) = min u ( t) [ f t ( x ( t) , u ( t) ) + J 3t +1 ( Ht ( x ( t) , u ( t) ) ) ] ,  t = T - 1 , ⋯,0 , (1) 其中边界条件为 J 3T ( x ( T) ) = f T ( x ( T) ) . 从 (1) 可以看出 ,运用动态规划可将多阶段最优决策问题 (DOP) 分解为一系列单阶段最优决策问题 ,从而使问题的求解计算量得到极大的降低. 相比其它解法 ,动态规划 总是提供一个反馈控制策略. 而这在有扰动或在随机情况下是至关紧要的. 在应用动态规划求解以上单目标多阶段最优决策问题时 ,问题 ( DOP)的目标函数必须是可分的 ,且具 有单调性. 而在实际复杂决策问题中 ,目标函数往往不具备可分性结构. 另外在现实生活中 ,彼此冲突的多 目标属性常常无法用一个目标函数统一度量. 本文介绍近年来文献中动态规划在多目标多阶段与不可分 多阶段决策问题中的一些拓广 ,并介绍这些发展在金融工程中的一项应用. 2  多目标动态规划的包络法 不同于单目标动态规划 ,我们在多目标动态规划中需要用 k 个整体目标函数来评估决策 : (MDP)   min u f = f 1 ( x (0) , u (0) , x (1) , u (1) , ⋯, x ( T - 1) , u ( T - 1) , x ( T) ) f 2 ( x (0) , u (0) , x (1) , u (1) , ⋯, x ( T - 1) , u ( T - 1) , x ( T) ) … f k ( x (0) , u (0) , x (1) , u (1) , ⋯, x ( T - 1) , u ( T - 1) , x ( T) ) s. t . x ( t + 1) = Ht ( x ( t) , u ( t) ) ,  t = 0 ,1 , ⋯, T - 1. 注意我们现在并不限定任意整体目标函数为可加型. 求解问题 (MDP)是要找出它的非劣解集. 一个满足系 统状态方程的可行解 ( x^ (0) , u^ (0) , x^ (1) , u^ (1) , ⋯, x^ ( T - 1) , u^ ( T - 1) , x^ ( T) ) 被称作非劣解 ,如果不存在 另一个可行解 ( „x (0) ,‰u (0) ,„x (1) , ‰u (1) , ⋯,„x ( T - 1) , ‰u ( T - 1) ,„x ( T) )使得对所有 i = 1 , ⋯, k , f i ( „x (0) , ‰u (0) ,„x (1) , ‰u (1) , ⋯,„x ( T - 1) , ‰u ( T - 1) ,„x ( T) ) ≤f i ( x^ (0) , u^ (0) , x^ (1) , u^ (1) , ⋯, x^ ( T - 1) , u^ ( T - 1) , x^ ( T) ) , 并至少有一个不等式是严格的. 为了用动态规划求解上述问题 (MDP) ,每个整体目标函数必须满足两个条件 :1) 可分性与 2) 单 调性. 在问题 (MDP)中 ,目标函数向量 f = [ f 1 , f 2 , ⋯, f k ]′被称为是后向可分 ,如果存在函数 0. (5) 以上假定 (5)保证单调性条件得到满足. 方程 (4)能够写成如下更紧凑的形式 : yT = 记录
cost2to2go yt . 对于一组给定的θ0i > 0 ,求 P2 (0)的解 U 3 ,就能产生 EZ 的一个子集. 基于以上讨论 ,我们能发展出自适应微分动态规划方法. 显然 ,在阶段 t ,θti ( i = 1 ,2 , ⋯, k) 的选择 ,将 影响以后各阶段的解. 因此 ,我们将增广状态空间 ,使θti 成为状态向量 ,并随状态变量的变化而变化. 作如 下定义 : θt = [θt1 , ⋯,θtk ]′,  t = 0 , ⋯, T , Λt = diag(λt1 , ⋯,λtk ) ,  t = 0 , ⋯, T - 1 , 其中 , λti = 5 yti5 yt +1i ,  i = 1 ,2 , ⋯, k . 增加 (6)为问题 ( P2 ( t) )的一个约束 ,我们有下面的问题 : ( P3 ( t) )    min{ u ( t) , ⋯, u ( T- 1) } (θt )′yt s. t . x (τ+ 1) θτ+1 = Hτ ( x (τ) , u (τ) ) Λτθτ ,  τ = t , ⋯, T - 1 , x ( t)和θt 给定 yτ = <τ ( x (τ) , u (τ) , yτ+1 ) ,τ = T - 1 , ⋯, t , yT = k . 而上述性质对于方差则不成立 ,即 , Var[Var (·| Ij ) | Ik ] ≠Var (·| Ik ) ,  Π j > k . 所以 ,方差最小化是随机控制中的一个长期棘手难题. 我们无法直接应用动态规划求解 ( E ( w) ) . 参考文献[9 ]中采用求解策略把问题 ( E ( w) ) 嵌入到一个可分的辅助问题中 ,研究问题 ( E ( w) ) 的解 与辅助问题解集的关系 ,从而在辅助问题的解集中搜索 ( E ( w) )的最优解. 对于给定的 w ,定义问题 ( E ( w) )的最优解集为ΠE ( w) ,即 , ΠE ( w) = {π| π is a maximizer of ( E ( w) ) } .   问题 ( E ( w) )的目标函数可以看成是 E ( x2T)和 E ( xT)的函数 :ŽU ( E( x2T ) , E ( xT ) ) = E ( xT ) - wVar ( xT ) = - w E ( x2T ) + w E2 ( xT ) + E ( xT) . 显然 , ŽU 是 E ( x2T)和 E ( xT )的凸函数. 对问题 ( E ( w) ) ,我们构造下面的辅助问题 : ( A (λ, w) ) :   max E{ - wx2T + λxT } s. t . xt +1 = e 0 t xt + P′t ut ,  t = 0 ,1 ,2 , ⋯, T - 1. 辅助问题 ( A (λ, w) )的显著特点是 :在动态规划的意义下 , ( A (λ, w) )是可分的 ,同时 , ( A (λ, w) ) 目标函数 具有二次形式 ,而且系统的动态结构是线性的. 对于给定的λ和 w ,定义ΠA (λ, w)为问题 ( A (λ, w) )的最优解集 , ΠA (λ, w) = {π| π is a maximizer of ( A (λ, w) ) } . 令 d (π, w) = 5 ŽU ( E ( x2T ) , E( xT ) )5 E ( xT ) π = 1 + 2 w E ( xT) | π.   定理 5  如果π3 ∈ΠE ( w) ,则 ,π3 ∈ΠA ( d (π3 , w) , w) . 上述定理的含义是 :问题 ( E ( w) )的解集是问题 ( A (λ, w) ) 的解集的子集. 这样 ,我们能够把难于处理 的不可分问题 ( E ( w) )嵌入到易于处理的可分辅助问题 ( A (λ, w) )中. 定理 6  假定π3 ∈ΠA (λ3 , w) ,则π3 ∈ΠE ( w)的必要条件是λ3 = 1 + 2wE ( xT ) | π3 . 36第 8 期 动态规划问题研究 辅助问题 ( A (λ, w) )的最优解 ,能够用动态规划得到. 特别是终端财富的期望与方差 , E ( xT ) ,Var ( xT ) 都可表示为λ的解析函数. 利用定理 6 我们可以预先求得λ的最优值 ,λ3 . 综上所述 ,辅助问题 ( A (λ3 , w) )的最优解给出问题 ( E ( w) )的解. 本节内容的更多细节可参考文献[9 ] . 用嵌入法解决动态投资问题在[14 ]中被进一步用来控制投资过 程中的破产概率. 6  结论 毫无疑义 ,动态规划是解决可分序列决策问题的最有效方法之一 ,也是对随机控制问题求解反馈策略 的唯一通用方法. 在过去的一些年中 ,动态规划取得了不少可喜的进展. 虽然在克服被 Bellman 称之为“维 数灾”的动态规划致命弱点的方面有一些工作[1~4 ,10~13 ] ,但是至今尚未取得突破性的进展. 所以当前一个 紧迫的研究课题是寻求克服维数灾的有效算法以能让动态规划在高维问题中得到有效应用. 其中一个急 需解决的课题是动态规划在大规模可分非线性整数规划中的应用. 可以想像求解不可分优化问题得到的最优策略并不满足最优性原理. 这就是说 ,不可分优化问题的最 优策略不具备时间一致性. 更深入想 ,这牵涉到不可分优化问题模型本身的合理性. 因此怎样找出 (一组) 可分优化问题来逼近一个给定的不可分优化问题具有它显然的重要性. 参考文献 : [ 1 ]  Jacobson D ,Mayne D. Differential Dynamic Programming[M]. Elsevier , New York , 1970. [ 2 ]  Johnson S A , Stedinger J R , Shoemaker C A. Numerical solution of continuous2state dynamic programs using linear and spline interpolation[J ] . Operations Research , 1993 ,41 :484. [ 3 ]  Larson R E. Dynamic programming with reduced computational requirements[J ] . IEEE Transactions on Automatic Control , 1965 , 10 :135 - 143. [ 4 ]  Larson R E ,Korsak A J . Dynamic programming successive approximations technique with convergence proofs[J ] . Automitica ,1970 , 6 :245. [ 5 ]  Li D , Haimes Y Y. The envelope approach for multiobjective optimization problems[J ] . IEEE Transactions on System , Man and Cybernetics ,1987 ,17 :1026 - 1038. [ 6 ]  Li D , Haimes Y Y. New approach for nonseparable dynamic programming problems [J ] . Journal of Optimization Theory and Applications ,1990 ,64 :311 - 330. [ 7 ]  Li D , Haimes Y Y. Extension of dynamic programming to nonseparable dynamic optimization problems [ J ] . Computer & Mathematics ,1991 ,21 :311 - 330. [ 8 ]  Liao L Z , Li D. Adaptive differential dynamic programming for multiobjective optimal control [J ] . Automatica ,2002 ,38 :1003 - 1015. [ 9 ]  Li D , Ng W - L. Optimal dynamic portfolio selection :Multi2period mean2variance formulation[J ] . Mathematical Finance , 2000 , 10 :387 - 406. [10 ]  Luus R. Iterative dynamic programming : From curiosity to a practical optimization procedure[J ] . Control Intell Syst , 1998 ,26 :1 - 8. [11 ]  Mayne D. A second2order gradient method for determining optimal trajectories of non2linear discrete2time systems[J ] . International Journal of Control ,1966 ,3 :85 - 95. [12 ]  Morin T L , Esogbue A M O. The imbedded state space approach to reducing dimensionality in dynamic programs of higher dimensions[J ] . J Math Anal Appl ,1974 ,48 :801 - 810. [13 ]  Yakowitz S ,Rutherford B. Computational aspects of discrete2time optimal control[J ] . Appl Math Comput ,1984 ,15 :29 - 45. [14 ]  Zhu S S , Li D ,Wang S Y. Risk control over bankruptcy in dynamic portfolio selection : A generalized mean2variance formulation [J ] . IEEE Transactions on Automatic Control , 2004 ,49 :447 - 457. 46 系统工程理论与实践 2007 年 8 月
/
本文档为【动态规划问题研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索