在基于多智能体理论的机器人领域里,自主机器人组成

ps学习技巧时间:2021-02-26 阅读:()

的多机器人群体协作行为的研究越来越受到关注,因为对于某些任务而言,用一台机器人去完成显然过于复杂,甚至不能实现,通过多个机器人协作则可以顺利完成任务;用多机器人协作完成任务,还可简化机器人个体的设计,方便制造,降低机器人个体价格;多机器人系统还具有更大的柔性、可扩展性和容错能力.
强化学习作为一种良好的在线学习方式,能够使智能体适应动态环境的变化,然而传统的强化学习有一个理论限制——它假设环境是马尔可夫过程的,所以在多智能体系统中就很难得到最优解,因为在单个智能体看来包含了其他智能体的环境是随机变化的[1].
把强化学习应用于多智能体环境中,吸引了很多研究者.
如研Matatic究了多收集行为问题Agent[2].
建立了两级学习方法来Stone研究协作行为问题[3].
等提出了一种获取协作行为的快Piao速强化学习方法,大大提高了学习效率[1].
等提出Suematsu了引入扩展最优反应的多智能(ExtendedOptimalResponse)体强化学习算法[4].
和研究了多智能体强化学习HuWellman问题[5].
和提出了一种联合动作学习者ClausBoutilier(joint来学习协作行为actionlearner)[6].
国内也有很多研究者在这方面进行了研究并取得了一定的成果[7~10].
本文以强化学习的主要算法——为基础,用Q-learning两层强化学习方法实现多智能体协作.
各个智能体在围绕自己局部目标运行的同时,经过全局协作单元处理Q-learning后,最终学习到联合任务的协作知识,从而实现高效协作.
实验模拟表明该方法是有效的.
强化学习1强化学习[11]是一种不同于监督学习和无监督学习方法的在线学习技术,基本原理如图所示.
它把学习看作是一个1试探评价的过程,首先强化学习系统一般是一个智能体感()知环境状态,采取某一个行动作用于环境;环境接受该动作后状态发生变化,同时给出一个强化信号奖励或是惩罚反()馈给强化学习系统,强化学习系统根据强化信号和环境当前状态再选择下一个动作选择的原则是使受到正强化奖的概,()率增大.
选择的动作不仅影响立即强化值而且影响环境下,一时刻的状态及最终的强化值.
状态S强化信号R行为A环境Agent图强化学习基本原理1方法Q-learning[12]是强化学习的主要算法之一,是无模型的学习方法,通过对客观世界采样,学习最优行动策略,而不是试图学习客观世界的模型.
在方法中,智Q-learning能体最优策略为在每一状态选用值最大的行为.
单步QQ-方法的值更新公式为learningQ111maxtttttttttQSaQSaaRQSaQSaγ+++=++αγt1(,)ttQSa+其中为学习率为折扣率是时刻环境状态,,St,t1+t表示时刻的值,是时刻环境给出的回报t+1Q(S,a)Rt+1,1max(,')ttQSa+1+t1+t是时刻环境状态的状态值即状态t+1S(Sa′下的最大值),其中是智能体可以采取的任何行为.
Qα研究表明当满足一定条件时,学习算法必然收Q-learning敛在最优解[13].
基金项目:浙江省自然科学基金资助项目()601078作者简介:陈雪江(—),男,硕士生,研究方向:智能系统1978与应用;杨东勇,教授;范荣真,硕士生定稿日期:2004-01-26:E-mailwelcomefei6@sohu.
com多智能体协作的两层强化学习实现方法陈雪江,杨东勇,范荣真(浙江工业大学信息学院,杭州)310014摘要:提出了多智能体协作的两层强化学习方法.
该方法主要通过在单个智能体中构筑两层强化学习单元来实现,将该方法应用于个智3能体协作抬起圆形物体的计算机模拟中,结果表明比采用传统强化学习方法的智能体协作得更好.
关键词:强化学习;学习;多智能体;协作QImplementingMethodofTwo-layerReinforcementBasedonMulti-agentCooperationLearningCHENXuejiang,YANGDongyong,FANRongzhen(InformationCollege,ZhejiangUniversityofTechnology,Hangzhou310014)【Abstract】Tispaperpresentstwo-layerreinforcementlearningmethodformulti-agentcooperation.
Thismethodismainlyrealizedbyaddingtwo-layerreinforcementlearningunittoeveryagent.
Aexperimentthatthreeagentsraisearoundobjectbycooperationhasbeendone.
Theresultshowsthattheagentscooperatebetterthantheagentsusingtraditionalreinforcementlearning.
【Keywords】Reinforcementlearning;Qlearning;Multi-agent;Cooperation第31卷第3期Vol.
31№3计算机工程ComputerEngineering2005年2月·人工智能及识别技术·中图分类号:TP311文章编号:1000—3428(2005)03—0192—03文献标识码:A—192—February2005http://www.
paper.
edu.
cn中国科技论文在线两层强化学习实现方法2智能体结构2.
1在多智能体理论中,根据智能体之间目标的关系及协同的程度划分,有一种协作叫协同型协作,即系统中的智能体具有一个共同的全局目标,同时还有与全局目标一致的局部目标[14].
我们的目标是通过具有状态转移不确定性的局部目标的学习,来完成相对确定的全局目标知识的获取.
在这个实现方法中,我们把每个智能体看作是强化学习的个体,包含两层强化学习单元,第一层强化学习单元负责学习智能体的联合任务协作策略,称之为全局协作单元,第Q-learning二层强化学习单元负责学习在本智能体看来是最有效的行动策略,称之为局部自身单元.
结构如图所示.
Q-learning2智能体全局协作Q-learning局部自身Q-learning环境图协作智能体的内部构造示意图2在学习阶段,智能体的局部自身单元根据感Q-learning知到的环境状态和自身采取的行动来更新值表,智能体的Q全局协作单元则根据感知到的环境状态和各智能Q-learning体采取的联合任务组合动作向量来更新值表;学习完毕处Q于工作运行状态时,智能体选择动作纯粹根据全局协作Q-单元,不再使用局部自身单元,智能体从learningQ-learning全局协作单元给出的结果中解析出自己应该执行Q-learning的动作来执行.
各个智能体在围绕自己局部目标运行的时候,经过全局协作单元处理后,最终学习到高效Q-learning的协作行动策略.
两层强化学习算法2.
2初始化:设置两层单元的值表即全局协作值(1)Q-learningQ,Q表和局部自身值表的初始值为,并且;Q0.
0t=0获知时刻的环境状态(2)tSt;根据当前状态结合局部自身值表选择一个动作;(3)Q同步执行各自所选动作得到新状态(4)a,St+1以及强化信号,Rt+1;根据自己采取的动作和(5)Rt+1更新局部自身值表更新公式为Q,111maxtttttttttQSaQSaaRQSaQSaγ+++=++通过局部自身单元互相通报刚才各自执行的动作,获得组(6)Q合动作向量;A根据组合动作向量和(7)Rt+1来更新全局协作值表更新公式为Q,111maxtttttttttQSAQSAaRQSAQSAγ+++=++A′这里的表示智能体群体所有可能的组合动作向量之一.
如果学习次数满足要求,则学习结束,此后工作时智能体(8)根据全局值表选择动作并解析各自要执行的动作反之.
Q,,GOTO(2)仿真实验及分析3我们把这个方法应用于一个个智能体这里是单臂机器3(人抬圆形物体的协作任务仿真实验.
)为了简便起见,把平面圆形物体的边沿分成等份,并12依次从编号,智能体的作用力只能施加在物体边沿的1~12等分点上,由此根据物理公式可得,个智能体为了把这个3物体抬起来只能站在俩俩成°的等分点上用力否则根据120,力矩平衡原则是抬不起物体的.
一开始个智能体的位置在3物体边沿上随机分布的,通过不断地学习来快速运动到合适位置来抬起物体.
每次智能体只能移动一格位置.
每个智能体的动作集合包含个动作:沿物体边沿向左移动一步、A3沿物体边沿向右移动一步和原地不动.
环境状态为当前S3个智能体所处的物体边沿编号组成的向量仿真场景如图.
,3图仿真场景3仿真运行结果如图所示.
图中学习周期是指多智能体4从开始尝试抬物体到抬起物体的一个过程,成功抬起物体后则再随机分配位置然后再开始尝试抬物体,直到学习周期数满足要求平均耗费步数,是指从所有可能的环境状态出发;到智能体协作抬起物体所累计得到的移动步数总和除以所有可能状态的数量,它反映了对各种环境状态的总体反应情况.
在仿真过程中每隔个学习周期就进行一次统计记录,50,目前从每个环境状态出发到抬起物体所要耗费的移动步数环境状态总数为,则该抽样点平均耗费步数∑ni,m=(ni)/αγ.
学习参数取,取.
mQ0.
80.
9图平均耗费步数曲线4从学习结果来看所采用的两层强化学习方法对于我们,研究的协作仿真任务是合适的多智能体每一次尝试抬物体,都是一个学习过程随着尝试次数的增加多智能体的协作变,,得越来越有效率从平均耗费步数的曲线可以看出多智能体,,抬起物体所需要的移动步数越来越小最后趋于稳定也就是,,说结果是收敛的.
该方法有效的主要原因在于,增加一层全局协作单元大大增强了智能体之间的协作信息的Q-learning处理,虽然对单个智能体来说环境变化还是随机的,但是对智能体群体这个整体来说环境变化却是确定的这也是它成,功应用于多智能体环境的主要原因.
—193—平均耗费步数学习周期数结论4本文采用两层强化学习单元构造多智能体群体的方法,用于多智能体抬圆形物体的协作任务,仿真结果证明了这种方法的有效性.
由于在仿真实验中,假设智能体是以自我为中心的,并不考虑别的智能体下一步可能采取什么行为,因此下一步将研究有预测的强化学习方法来提高学习的效率,并将它应用到实际环境的机器人系统中.
参考文献1PiaoSonghao,HongBingrong.
FastReinforcementLearningAppro-achtoCooperativeBehaviorAcquisitioninMulti-agentSystem.
Proceedingsofthe2002IEEE/RSJIntl.
ConferenceonIntelligentRobotsandSystems,Lausanne,Switzerland.
2002-10:871-8752MataricMJ.
ReinforcementLearningintheMulti-robotDomain.
AutonomousRobots4,1997,(1):73-833StoneP,VelosoM.
UsingMachineLearningintheSoccerServer.
Proc.
ofIROSWorkshoponRobocup,19964NobuoS,AkiraH.
AMultiagentReinforcementLearningAlgorithmUsingExtendedOptimalResponse.
Proc.
oftheFirstInternationalJointConferenceonAutonomousAgents&MultiagentSystems,Bologna,Italy,2002-07:370-3775HuJunling,MichaelWP.
MultiagentReinforcementLearning:TheoreticalFrameworkandanAlgorithm.
Proc.
15thInternationalConf.
onMachineLearning1998:242-2506CarolineC,CraigB.
TheDynamicsofReinforcementLearninginCooperativeMultiagentSystems.
InProc.
WorkshoponMulti-agentLearning,1997:602-608孟伟洪炳熔韩学东强化学习在机器人足球比赛中的应用计7,,.
.
算机应用研究,2002,(6):79-81李晓萌杨煜普许晓鸣基于对策和强化学习的多智能体8,,.
Markov协作研究上海交通大学学报.
,2001,35(2):288-292蔡庆生张波一种基于团队的强化学习模型与应用研究9,.
Agent计算机研究与发展,2000,37(9):1087-1093高阳周志华何佳洲等基于对策的多强化学习10,,.
MarkovAgent模型及算法研究计算机研究与发展.
,2000,37(3):257-26311SuttonRS,BartoAG.
ReinforcementLearning.
MITPress,199712LittmanML.
MarkovGamesasaFrameworkforMulti-agentReinforcementLearning.
InProc.
of7thInternationalConferenceonMachineLearning,1994:157-16313LittmanML,SzepesvariC.
AGeneralizedReinforcement-learningModel:ConvergenceandApplications.
In:Procofthe13thInt'lConf.
onMachineLearning.
Bari,Italy:MorganKanfmann,1996:310张维明主编智能协作信息技术北京电子工业出版社14.
.
:,2002(上接第页)124采集的文件包括等多种文件(2)html,txt,doc,pdf,wav,mp3,jpg,ps;采集速度良好网络环境下(3)()峰值:页台采集器个线程;100/s115正常:页台采集器个线程15/s115.
系统应用2本信息采集系统是一个网上信息资源采集工WebInternet具,它可自动收集上站点内有效的信息,并能InternetWWW够自动实时更新源站点信息.
它定期将采集信息上传至信息发布服务器,为网上搜索引擎、脱线浏览、网上信息采集与转播系统、个性化信息代理等系统提供了丰富的信息资源库,是不可或缺的底层支撑系统.
目前,本信息采集系Web统已经实际运用于多个项目中.
服务于网上搜索引擎.
本信息采集系统能高效地采集(1)Web指定的站点信息,为搜索引擎提供丰富的数据.
通过设置站点采集和刷新的时间和周期,能实时跟踪站点最新信息.
需要持续监视的特殊站点,通过不间断地反复刷新的方式可提供更高的更新速度.
服务于脱线浏览.
在网络要求特殊的环境下,信息采(2)Web集系统采集的站点信息传送到信息发布服务器后,可服务于用户的脱线浏览.
由于采集控制服务器支持安全开关,信息采集系统Web可为脱线浏览用户实时地采集最新站点信息.
系统还可以根据需要屏蔽图片信息.
服务于网上信息采集与转播系统.
信息采集系统采集(3)Web的站点信息传送到信息发布服务器后,可转播给具体的用户.
系统可以根据需要支持代理服务器.
服务于个性化信息代理.
用户可根据自己的兴趣,设置具(4)体的需求信息.
信息采集系统采集的站点信息传送到信息发布Web服务器后,依据用户的具体需求,推送给用户所需的个性化信息.
服务于站点镜像.
本信息采集系统通过对指定站点不(5)Web间断地反复刷新的方式来确认网页的有效性,实现站点镜像.
当站点更新时,及时刷新镜像数据,并通知用户.
在实际使用过程中,用户可对多种采集条件加以限制,以便更有效地获取所需信息资源.
根据用户的具体需求,本信息采集系统还可具体定制,服务于具体的应用.
Web结束语3以上讨论了一种通用的信息采集系统的设计与实Web现.
实践证明,本信息采集系统能够对信息进行WebInternet自动采集,具有良好的通用性,对今后的信息处理提供了充分的支持.
以本信息采集系统作为底层支撑系统,可方Web便灵活地定制各个实际工程项目,开发周期短,效率高.
随着人们对服务种类和质量要求的提高,对信息采Web集系统的要求也越来越高.
在将来的研究中,还需要对本系统进一步完善,例如如何更好地处理页面的并行采集、如何更好地完善页面的刷新策略、如何避免系统陷入某个特殊站点等,以便使本信息采集系统具有更好的性能.
参考文献1ChoJ,Garcia-MolinaH.
ParallerCrawlers.
ProceedingsoftheEle-venthInternationalConferenceonWorldWideWeb,2002-052AggarwalC,Al-GarawiF,YuP.
IntelligentCrawlingontheWorldWideWebwithArbitraryPredicates.
In:Proceedingsofthe10thInternationalWWWConference,20033MenczerF,PantG,SrinivasanP,etal.
EvaluatingTopic-DrivenWebCrawlers.
In:Proceedingsofthe24thAnnualInternationalACM/SIGIRConference,20024ChakrabartiS,VanDenBergM,DomB.
FocusedCrawling:ANewApproachtoTopic-specificWebResourceDiscovery.
In:Proceedingsofthe8thInternationalWWWConference,Toronto,Canada,1999-05—194—

展开全文

在基于多智能体理论的机器人领域里,自主机器人组成相关文档

Photoshop在图形图像处理中的应用研究

中国论坛大全天涯论坛的网址？arm开发板想购买一个ARM开发板，选什么类型的好申请证书一、如何申请证书？腾讯文章怎样才能在手机腾讯网上发表文章？雅虎天盾我装了360安全卫士，原来的雅虎天盾需不需要卸载 qq空间打扮如何打扮QQ空间？ios系统ios系统的手机有哪些？机械键盘轴打游戏用机械键盘到底什么轴好？系统分析员如何成为系统分析师？宽带接入服务器宽带接入服务器的五大功能是什么? 个人域名注册 187邮箱申请空间服务器架设发包服务器铁通流量查询免空刀片服务器是什么 cdn加速原理服务器是干什么的最漂亮的qq空间美国盐湖城阿里云邮箱登陆地址 1美元 wannacry勒索病毒 asp.net虚拟主机 studentmain ssd 瓦工工具冰盾ddos防火墙更多

在基于多智能体理论的机器人领域里,自主机器人组成

Hostodo美国独立日优惠套餐年付13.99美元起,拉斯维加斯/迈阿密机房

收到几个新商家投稿（HostMem，无忧云，青云互联，TTcloud，亚洲云端，趣米云），一起发布排名不分先后

2021年恒创科技618活动：香港/美国服务器/云服务器/高防全场3折抢购