关键词:
部分观测最大值原理
循序可测最优控制
正倒向随机微分方程
随机跳
随机滤波
无穷时域
线性二次控制
Stackelberg均衡
分数阶布朗运动
粗轨道
摘要:
本篇论文主要研究了部分可观测随机控制问题和Stackelberg微分博弈问题.具体地,在带跳的部分可观测正倒向随机系统的框架下,我们建立了循序可测框架下最优控制的全局最大值原理和无穷时域下贴现最优控制的最大值原理.接着我们研究了 一类线性二次Stackelberg随机微分博弈问题.最后当考虑由分数阶布朗运动驱动的随机系统时,我们得到其全局最大值原理.此外,我们将这些理论结果应用到一些实际应用中,比如最优消费和投资问题以及动态广告问题.在大多数最优控制问题中,通常假定玩家能完全观测到受控随机系统的状态.但是,由于角色的不对称性和信息的延迟,这在现实生活中是不符合实际的.因此我们旨在研究部分可观测系统且将玩家仅可获得部分信息的情况考虑在内.换言之,玩家无法完全观测系统,但可以通过观察一个相关的观测过程来解决此问题.因此研究部分可观测最优控制问题并获得其最大值原理是非常有意义的.当考虑多个玩家的微分博弈问题时,在各种动态博弈问题中的—个典型例子是由Stackelberg引入的Stackelberg(也称为主从)微分博弈,其经济背景来源于某些公司在主导权上比其他公司具有更多优势的市场.该问题通常包括两个带有不对称角色的玩家,一个跟随者和一个领导者.该博弈问题的核心是一个玩家必须在另一个玩家做完决策之后再做出自己相应的决策,即体现出分层的特点.由于其结构和背景极具研究价值,Stackelberg博弈受到了大量的关注.特别地,由于赋予跟随者和领导者的不对称角色正好与他们之间已知的不对称信息这一特点相匹配,所以一个部分可观测的Stackelberg微分博弈非常值得研究,其中受一些实际应用背景的启发,我们给出了另一种更加符合实际的不对称信息设定.除了标准的布朗运动(H=1/2),近些年来,对于带分数阶布朗运动(H∈(0,1)且H≠1/2)的随机系统的研究已经引起了广泛的关注.且该过程已经应用到许多领域中,比如气候学,经济学,互联网流量分析及其金融.但是关于分数阶布朗运动的随机积分通常不是一个半鞅,因此类似于经典的布朗运动中的重要随机分析理论没法直接应用,而这些理论工具对解决最优控制问题并获得最优条件尤为重要.因此,无论是在理论上还是在实际应用中,研究带分数阶布朗运动(特别是H<1/2)的随机系统下的最大值原理都具有非常重要的价值和意义.现在,我们给出如下本文的主要研究内容:论文的第一章分别介绍了本文如下四章中的研究背景,研究前沿以及研究目的,并且给出其主要研究内容,创新点和主要贡献.论文的第二章讨论了在循序可测框架下的带跳的正倒向随机系统的部分观测最优控制问题,其中控制域非凸,且控制变量进入所有系数.在本章模型中,观测方程同时带有布朗运动和泊松随机测度,且与状态方程存在相关噪声.得到了部分观测全局最大值原理.为了给出其应用,通过最大值原理和随机滤波理论,我们研究了对应的部分观测线性二次最优控制问题.通过引入一些常微分方程,给出最优控制更加显示的状态估计反馈表示.论文的第三章研究了无穷时域下带跳的正倒向随机系统的部分观测贴现最优控制问题.控制域是凸集,且引入一类无穷时域观测方程.得到无穷时域带跳的正(倒)向随机微分方程的唯一可解性,且对特别是倒向情况做出更多推广的分析.对于关键的变分不等式的推导,首次给出了一些新的高阶估计并证明.通过引入一些无穷时域伴随方程,其唯一可解性可得到必要保证,从而得到最大值原理,同时给出充分最大值原理.此外,分别给出一个可解的线性二次例子以及解决带有递归效用的最优消费和投资问题.最后,对两类代表性的无穷时域随机系统及其相关最优控制问题进行了比较.论文的第四章关注一类线性二次部分观测Stackelberg随机微分博弈问题,且存在状态和观测之间的相关噪声,其中控制域非凸.领导者和跟随者都有他们各自的观测方程,且领导者知道的信息包含于跟随者的信息中.得到了 Stackelberg均衡点的必要和充分条件.在跟随者问题中,通过正倒向随机微分滤波方程和某些Riccati方程表示出最优控制的状态估计反馈.在领导者问题中,凭借更新过程,通过随机微分滤波方程,半鞍过程及其三个高维的Riccati方程得到最优控制的状态估计反馈.作为一个应用,研究了一个带有不对称信息的动态广告问题,并利用数值模拟阐述了理论结果的有效性和合理性.论文的第五章研究了同时由经典布朗运动和分数阶布朗运动驱动的多维部分观测随机系统的最优控制问题.因为缺少有用的Girsanov转换工具,利用粗轨道理论引入并研究了新的过程,并用其将初始系统转换为一个经典系统.得到了伴随倒向随机微分方程以及最优控制满足的必要条件(最大值原理).论文的第六章对全文进行了总结并对论文中有待解决的问题进行了展望.