决策我的速度

我的速度时间:2021-05-23 阅读:()

收稿日期:20120521基金项目:航空科学基金资助项目(20115185004)作者简介:周思羽(1983—),男,博士生,E-mail:ezhousiyu@yahoo.
com.
cn;吴文海(1962—),男,教授,博士生导师,E-mail:austin@qing-daonews.
com.
cn.
第33卷第3期2013年3月北京理工大学学报TransactionsofBeijingInstituteofTechnologyVol.
33No.
3Mar.
2013基于随机决策准则的改进多级影响图机动决策方法周思羽1,2,吴文海1,2,孔繁峨2,张楠1(1.
海军航空工程学院青岛分院,山东,青岛266041;2.
中航工业613所光电控制技术重点实验室,河南,洛阳471009)摘要:针对传统影响图机动决策方法需要由飞行员预先给出空战态势评估难于准确确定的先验似然函数,将随机决策理论引入到影响图机动决策当中,提出了基于随机决策准则的改进多级影响图机动决策方法.
该方法仅需在决策时刻评估潜在空战态势,依据决策准则便可以产生机动决策.
为了优化该方法,基于典型随机决策准则,分别设计了5种机动决策准则,在典型空战想定条件下仿真分析了各机动决策准则的特点.
仿真结果表明:在态势劣势时,后悔值准则决策效果较好;在态势优势时,悲观准则、乐观准则、折中准则、等概率准则决策效果较好.
关键词:随机决策;决策准则;多级影响图;机动决策;态势评估中图分类号:V279文献标志码:A文章编号:1001-0645(2013)03-0296-06ImprovedMultistageInfluenceDiagramManeuveringDecisionMethodBasedonStochasticDecisionCriterionsZHOUSi-yu1,2,WUWen-hai1,2,KONGFan-e2,ZHANGNan1(1.
QingdaoBranch,NavalAeronauticalEngineeringInstitute,Qingdao,Shandong266041,China;2.
ScienceandTechnologyonElectro-OpticControlLaboratory,The613InstituteofAVIC,Luoyang,Henan471009,China)Abstract:Thetraditionalinfluencediagrammaneuveringdecisionmethodrequirespilot'sdeterminationofthepriorlikelihoodfunctionforsituationassessment,butthepriorlikelihoodfunctionishardtobedeterminedprecisely.
Inordertosolvethisproblem,thisworkintroducesthestochasticdecisiontheoryintotheinfluencediagramandpresentsanimprovedmultistageinfluencediagrammaneuveringdecisionmethod.
Thenewmethodonlyneedstoassesspotentialaircombatsituationsatdecisionstageandthemaneuversdecisioncouldbegeneratedaccordingtothedecisioncriterions.
Tooptimizethepresentedmethod,thisresearchdesignsfivetypesofmaneuveringdecisioncriterionand,undertypicalaircombatsituations,numericallyanalyzestheircharactersrespectively.
Keywords:stochasticdecision;decisioncriterion;multistageinfluencediagram;maneuveringdecision;situationassessment影响图是一种基于图表的决策模型,利用非循环有向图紧凑表示不确定变量和决策之间的关系,确定最优决策[1].
研究表明:影响图方法用于建模、求解机动决策问题结构清晰、简洁直观,有着良好的运用前景[23].
传统影响图机动决策方法需要由飞行员预先给出空战态势评估似然函数,但似然函数难以准确构造.
为此,本文将严格不确定型随机决策理论引入到影响图机动决策模型中,避免了预先确定似然函数,提出了改进多级影响图空战机动决策方法.
1传统影响图机动决策方法分析传统影响图机动决策方法中,任意决策时刻双方战机状态和空战状态用确定性节点表示.
空战态势的评估则是当前空战状态的观察,代表了双方各自对当前态势的判断,为不确定量,用机会节点表示.
k时刻效用值为Un(k)(n=Pi,Tj.
Pi,Tj分别表示我机群中第i架战机和敌机群中第j架战机),效用值和∑Nk=1Un(k)为空战最终结果,用值节点表示.
双方战机状态通过式(1)更新f(x,u)=vcosγcosψ,vcosγsinψ,vsinγ,g(nx-sinγ),gv(nzcos-cosγ),gnzsinvcosγìí.
(1)式中:v为战机速度;x,y,z为战机在惯性系内的坐标值;γ、ψ、、nx、nz分别为航迹倾斜角、偏航角、滚转角、切向过载、法向过载;u=[nxnz]为战机控制量;x=[xyzvγψ]为状态量,对战机n,有xn(k+1)=xn(k)+f(xn(k),un(k))Δt,(k=0,1,…,N-1)(2)式中Δt为机动决策步长.
通过状态xn(k)和双方相对几何关系可以确定战机n在任意时刻k的空战状态cn(k)=(φn,qn,R),其中φn,qn,R分别为目标方位角、目标进入角和距离.
态势评估节点包含离散随机变量Θn(k).
Θn(k)表示n机飞行员对k时刻空战态势的评估,其取值及其含义:Θn(k)=θ1,n机均势;Θn(k)=θ2,n机优势;Θn(k)=θ3,n机劣势;Θn(k)=θ4,互为劣势.
先验概率P(Θn(k)=θl),l=1,2,3,4表示n机飞行员对威胁态势的估计,且满足式(3)的约束.
∑4l=1P(Θn(k)=θl)=1.
(3)基于贝叶斯定理,可得n机飞行员对态势评估结果的后验概率为P(Θn(k+1)=θlcn(k+1))=P(Θn(k)=θl)P(cn(k+1)Θn(k)=θl)∑4m=1P(Θn(k)=θm)P(cn(k+1)Θn(k)=θm).
(l=1,2,3,4)(4)假设空战状态cn(k+1)中φn(k+1)、qn(k+1)、R(k+1)均为独立随机变量,则式(4)中P(cn(k+1)Θn(k)=θl)可通过式(5)求解.
P(cn(k+1)Θ(k)=θl)=P(φn(k+1)Θ(k)=θl)P(qn(k+1)Θ(k)=θl)*P(R(k+1)Θ(k)=θl),(5)式(5)中的似然函数P(·Θ(k)=θl)由飞行员根据其空战经验和主观认识给出.
战机n机动决策目标函数可以表示为Jn(uPi(0),uPi(1),…,uPi(N-1),uTj(0),uTj(1),…,uTj(N-1))=∑Nk=1∑4l=1P(Θn=lcn(k))Un(θl,cn(k)),(6)式中Un(θl,cn(k))为k时刻的效用函数.
则战机n的最优机动策略(机动决策序列)为Δ*=u*n(0),u*n(1),u*n(2),…,u*n(N-1),且Δ*=argmaxun∑Nk=1∑4l=1P(Θn=lcn(k))Un(θl,cn(k())).
(7)传统影响图机动决策方法主要建立在由飞行员确定的似然函数P(·Θ(k)=θl)基础上,而P(·Θ(k)=θl)体现了飞行员对不同空战态势的看法,有着较大主观性和随意性.
Simon指出:人的知识是不完备的,描述问题能力是有限的,价值偏好体系是不稳定的[4].
同样,对机动决策问题而言会出现以下情况:①飞行员难以精确描述机动决策问题所涉及的所有因素,即使能够给出机动决策的判据,也难以抽象为合适的数学形式;②个体飞行员价值取向并不一致.
例如有的飞行员偏好激进的机动策略,有的则偏向于稳妥的机动策略;③同一飞行员的策略也会随着空战态势的变化而调整.
综合以上几点,由飞行员确定出态势评估似然函数往往各不相同,甚至互相矛盾.
这是传统多级影响图机动决策模型无法克服的问题.
针对传统多级影响图机动决策模型不足,本文将随机决策理论方法引入到多级影响图机动决策模型中,避免由飞行员主观给出P(·Θ=θl),提出了基于随机决策的改进多级影响图机动决策方法.
792第3期周思羽等:基于随机决策准则的改进多级影响图机动决策方法2严格不确定型随机决策的改进多级影响图机动决策机动决策是一类典型的随机决策问题.
以我机Pi对敌机Tj的空战,我机Pi为决策方为例,阐述基于严格不确定型随机决策的改进多级影响图机动决策方法.
为论述方便给出下列定义.
定义1定义Pi所有潜在机动决策集合为决策集或方案集,记为A={A1,A2,…,Am}={u1Pi,u2Pi,…,umPi}.
定义2定义Tj所有潜在机动决策集合为自然状态集,记为Ω={Ω1,Ω2,…,Ωn}={u1Tj,u2Tj,…,unTj}.
从随机决策角度看,Ω可看作是不受决策者控制的自然状态,故称为自然状态集.
在任意时刻,A和Ω共同决定了潜在空战态势.
定义3定义任意时刻k时所有潜在空战态势评估结果为态势评估集,记为S(k)={suaPi,ubTj(k+Δt)uaPi∈A,ubTj∈Ω}.
suaPi,ubTj(k+Δt)(a=1,2,…,m,b=1,2,…,n)表示我机Pi(决策方)采取机动方案uaPi,敌机Tj采取机动ubTj的自然状态下,在k+Δt时刻的潜在态势评估值.
suaPi,ubTj(k+Δt)也可看作是k时刻的机动决策uaPi在自然状态ubTj下的评价(以后在不至引起歧义的地方suaPi,ubTj(k+Δt)均简记为suaPi,ubTj).
根据定义1~定义3,在任意时刻k可得如表1所示的决策表.
表1时刻k的决策Tab.
1DecisionsattimekA自然状态集Ωu1Tju2Tj…ubTj…unTju1Pisu1Pi,u1Tjsu1Pi,u2Tj…su1Pi,ubTj…su1Pi,unTju2Pisu2Pi,u1Tjsu2Pi,u2Tj…su2Pi,ubTj…su2Pi,unTjuaPisuaPi,u1TjsuaPi,u2Tj…suaPi,ubTj…suaPi,unTjumPisumPi,u1TjsumPi,u2Tj…sumPi,ubTj…sumPi,unTj定义4定义从决策集A中选择机动决策时所遵循的准则为机动决策准则.
在任意时刻k,基于态势评估集S(k)的评估结果,在机动决策准则的指导下,便可以确定出k时刻的最优机动决策u*Pi(k).
作者将在第3节专门讨论机动决策准则的设计.
综上所述,基于随机决策的改进多级影响图机动决策方法可用图1表示.
改进后多级影响图机动决策模型不再需要飞行员主观确定P(·Θ=θl),而是基于态势评估集解算结果和机动决策准则产生最优机动决策,并将最终阶段N的决策准则作用下的态势评估值作为影响图值节点.
另外,仅需要采用不同的态势评估集解算函数,如超视距态势评估函数[5]或视距内态势评估函数[6]等,就可以产生不同空战条件下的机动决策.
也可从敌机Tj的角度建立模型,此时只需将我机Pi的潜在机动决策视为自然状态.
图1基于随机性决策的改进多级影响图机动决策Fig.
1ImprovedmultistageIDsmaneuveringdecisionmethodbasedonstochasticdecisioncriterions3随机决策的机动决策准则设计严格不确定型随机决策准则主要有5类:悲观准则、乐观准则、折中准则、等概率准则、后悔值准则[7].
本节将分别基于5类严格不确定型随机决策准则设计机动决策准则.
3.
1悲观准则机动决策悲观准则是Wald最早提出的[8],其基本思想:以最坏的结果为考察对象,决策目标是使最坏的结果带来的损失最小化.
对于机动决策问题,考察我机Pi采取机动决策u1Pi,u2Pi,…,umPi时可能出现的最坏态势评估结果,即suaPi,Ω=minnb=1(suaPi,ubTj).
(a=1,2,…,m)(8)892北京理工大学学报第33卷令ul1Pi为悲观准则机动决策,则ul1Pi满足ul1Pi=argmaxma=1suaPi,{}Ω=argmaxma=1minnb=1suaPi,ubT{}j,(9)式(9)是保守的机动决策准则,总是假设未来空战态势为最坏情况,并作出机动决策.
3.
2乐观准则机动决策与悲观准则相反,乐观准则基本思想:以最好的后果为考察对象,决策目标是使最好的结果带来收益最大化.
对于机动决策问题,考察我机Pi采取机动决策u1Pi,u2Pi,…,umPi时可能出现的最好态势评估结果,即suaPi,Ω=maxnb=1(suaPi,ubTj).
(a=1,2,…,m)(10)令ul2Pi为乐观准则机动决策,则ul2Pi满足ul2Pi=argmaxma=1suaPi,{}Ω=argmaxma=1maxnb=1suaPi,ubT{}j.
(11)式(11)是激进的决策准则,总是假设未来空战态势为最好情况,并作出机动决策.
3.
3折中准则机动决策现实中的多数决策者会介于悲观和乐观之间采取折中的办法,即决策者将根据悲观准则和乐观准则的加权均值来决策.
对于机动决策问题,令ul3Pi为折中准则机动决策,则ul3Pi满足ul3Pi=(1-λ)ul1Pi+λul2Pi=arg((1-λ)maxma=1minnb=1{suaPi,ubTj}+λmaxma=1maxnb=1suaPi,ubT{}j)=argmaxma=1(1-λ)minnb=1suaPi,ubT{}j+λmaxnb=1suaPi,ubT{}()j,(12)式中λ∈0,[]1为乐观系数,根据决策者的乐观程度确定.
λ=1时退化为乐观准则,λ=0时退化为悲观准则.
3.
4后悔值准则机动决策决策过程中,决策者会将一种决策Aa在某一自然状态Ωb下的结果与当前自然状态下的最优结果进行比较.
定义在自然状态Ωb下决策Aa与最优决策效用之差为决策Aa的后悔值,记为rab.
Savage提出利用最大后悔值max{rab}作为决策优劣的标准,选取使其极小化的决策[9].
对于机动决策问题,设机动决策后悔值rab,a=1,2,…,m,b=1,2,…,n,则rab可表示为rab=maxma=1suaPiubT{}j-suaPiubTj.
(13)令ul4Pi为后悔值准则机动决策,则ul4Pi满足ul4Pi=argminma=1maxnb=1r{}{}ab=argminma=1maxnb=1maxma=1suaPiubT{}j-suaPiubT{}{}j,(14)式(14)准则总是选取后悔值最小的机动.
3.
5等概率准则机动决策严格不确定的自然状态等价于每一自然状态具有相等的出现概率[10].
决策者可以选择使平均值效用最优的决策.
对于机动决策问题,令ul5Pi为后悔值准则机动决策,则ul5Pi满足ul5Pi=argmaxma=11n∑nb=1suaPiubT{}j,(15)式(15)是在假设自然状态等概率出现的情况下做出的机动决策.
4算例仿真作者设计2种典型空战想定以分析各决策准则的性能,见表2.
为加快空战仿真进程、增强仿真结果直观性,设置我机机动性能优于敌机,我机最大切向过载和法向过载分别为nx1max=4、nz1max=8,敌机最大切向过载和法向过载分别为nx2max=3、nz2max=6.
我机、敌机均采用NASA学者提出的7种最常用空战机动方式,且均采用如式(16)所示的态势评估函数suaP,ubT=e0.
5RuaP,ubT2Rge-|RuaP,ubT-Rg|2Rg1-φuaP,ubT+quaP,ubTè÷180,(a=1,2,…,m,b=1,2,…,n)(16)式中:Rg为航炮最佳射击距离,Rg=500m;RuaP,ubT,φuaP,ubT,quaP,ubT分别为我机机动uaP、敌机机动ubT时双方相对距离、目标方位角、目标进入角.
决策间隔Δt=0.
25s,且g=9.
8m/s2.
表2典型空战想定初始条件Tab.
2Initialconditionsofsimulations仿真编号12参战单元x0/my0/mz0/mγ0/(°)ψ0/(°)v0/(m·s-1)P00500000210T10001005000150220P00510010180240T2000050000180250最大空战时间/s2025仿真1,我机初始态势优势,且敌机机动仿真结果如图2所示.
敌机采用盘旋上升策略,力图在摆992第3期周思羽等:基于随机决策准则的改进多级影响图机动决策方法脱追击态势同时,占据高度和角度优势,这也是实际空战中常见的策略.
5种决策准则体现了类似的空战思路,即降低我机速度,减小我机的转弯半径和增大转弯角速度,以求更快的将机头指向对手、保持角度优势,如图2(a)所示.
从图2(b)可以看出,5种决策准则均能使敌机方位角φP保持在小于0.
14rad的水平,即始终保持机头较好地指向敌机.
如图2(c)所示,由于敌机采用了较为合理的空战策略,5种决策准则均难以保持较小的目标进入角qP,即难以占据敌机尾后位置.
相对而言悲观准则、折中准则、等概率准则qP波动范围较小,乐观准则次之,后悔值准则波动范围最大.
从图2(d)~图2(e)可以看出,后悔值准则速度降低较快,所以空战的前6s时与敌机距离不断扩大,不过在空战13s以后的时段后悔值准则逐渐体现出了优势;悲观准则、乐观准则、折中准则、等概率准则在空战过程中均较为稳定地减少敌我相对距离.
综合而言,悲观准则、乐观准则、折中准则、等概率准则在空战的前14s左右较为理想,后悔值准则在空战14s以后逐渐体现出优越性.
图2仿真1空战结果Fig.
2Resultsofaircombatundersimulationcondition1仿真2,我机初始态势劣势,且敌机机动仿真结果如图3所示.
仿真2空战过程同样表现为两个阶段:①我机首先作出规避机动,其中悲观准则、乐观准则、折中准则、等概率准则在竖直机动平面内作出了筋斗机动.
而后悔值准则作出了斜拉起的机动;②我机转入对敌机的进攻机动,其中悲观准则、乐观准则、折中准则、等概率准则也作出了蛇形机动动作以创造有利攻击态势,且机动轨迹比敌机平滑.
而后悔值准则由于第一阶段转离敌机,在转入进攻阶段时距敌机相对较远,所以其机动策略主要表现为快速接敌.
如图3(b),图3(c)所示,悲观准则、乐观准则、折中准则、等概率准则使得敌机方位角和进入角更迅速减小,就角度态势而言,这4种准则均优于后悔值准则.
如图3(d),图3(e)所示,与其他4种准则相比,后悔值准则在空战的前24s均距离敌机相对较远,故采取较快的速度,以弥补较远的相对敌机距离,而较快的速度明显影响了接敌后的攻击占位.
综合而言,在仿真2条件下悲观准则、折中准则、等概率准则效果最优,乐观准则次之,后悔值准则稍差.
限于篇幅,本文仅给出了我机性能占优的算例.
实际上,当敌机性能占优时,基于随机决策准则的改进多级影响图机动决策方法也能取得较好的决策效果.
003北京理工大学学报第33卷图3仿真2空战过程Fig.
3Resultsofaircombatundersimulationcondition25结论从仿真结果可知:①悲观准则、乐观准则、折中准则、等概率准则生成的机动决策在多数情况基本一致;②与悲观准则、乐观准则、折中准则、等概率准则相比,后悔值准则较为稳健,在态势劣势的情况下机动决策更为合理,但在态势优势情况下机动决策效果则稍差.
综合而言,在劣势时宜采用后悔值准则,在优势时宜采用悲观准则、乐观准则、折中准则、等概率准则.
首次将随机决策理论引人多级影响图机动决策模型当中,并系统分析了不同决策准则决策特点,未来还可以进一步设计决策准则选择算法,根据空战态势实时确定机动决策准则,使改进多级影响图机动决策方法取得更好的效果.
参考文献:[1]TerekM.
Decisiontreeandinfluencediagramsindecisionanalysis[J].
JournaloftheAppliedMathematics,StatisticsandInformatics,2005,15(1):121135.
[2]吴江,宋晗,周锐,等.
基于扩展影响图的超视距空战辅助决策方法[J].
控制与决策,2010,25(11):16691674.
WuJiang,SongHan,ZhouRui,etal.
Extendedinfluencediagrambaseddecisionaidingapproachforbeyond-visual-rangeaircombat[J].
ControlandDecision,2010,25(11):16691674.
(inChinese)[3]罗德林.
空战协同多目标攻击/机动决策与导引律设计研究[D].
南京:南京航空航天大学,2006.
LuoDelin.
Researchonaircombatcooperativemultipletargetattack/maneuveringdecision-makingandguidancelaw[D].
Nanjing:NanjingUniversityofAeronautics,2006.
(inChinese)[4]SimonHA.
Modelsofboundedrationality[M].
Cambridge,USA:MITPress,1982.
[5]吴文海,周思羽,高丽,等.
基于导弹攻击区的超视距空战态势评估改进[J].
系统工程与电子技术,2011,33(12):26792685.
WuWenhai,ZhouSiyu,Gaoli,etal.
Improvementsofsituationassessmentforbeyond-visual-rangeaircombatbasedonmissilelaunchingenvelopeanalysis[J].
SystemsEngineeringandElectronics,2011,33(12):26792685.
(inChinese)[6]ZhouSY,WuWH,ZhouSM.
Anewsituationassessmentmodelforwithin-visual-rangeaircombat[J].
ProcediaEngineering,2012,29:339343.
[7]武小悦.
决策分析理论[M].
北京:科学出版社,2010.
WuXiaoyue.
Decisionanalysistheory[M].
Beijing:SciencePress,2010.
(inChinese)[8]WaldA.
Statisticaldecisionfunctions[M].
NewYork:JohnWiley&Sons,1950.
[9]SavageLJ.
Thefoundationsofstatistics[M].
NewYork:JohnWiley&Sons,1954.
[10]LaplacePS.
Philosophicalessaysonprobabilities[M].
NewYork:Springer-Verlag,1995.
(责任编辑:赵业玲)103第3期周思羽等:基于随机决策准则的改进多级影响图机动决策方法

展开全文