2020,2020Learning

EffectiveValueFunctionFactorizationviaAttentionalCommunication基于注意力通信学习有效的值函数分解吴波*杨晓亚孙楚雄王瑞胡晓惠 *通讯方式:|wubo2018@ 背景多智能体强化学习方法(Multi-AgentReinforcementLearning,MARL)在人工智能和自动控制等领域得到了广泛的关注和研究。
在MARL中，多个智能体与环境进行交互来尽可能获得更多的累计奖励，通常可建模成去中心化部分可观测马尔科夫决策过程（Dec-POMDP）。
创新点 ①通信辅助值函数分解学习引入通信来降低混合网络的“负担”，学习更通用的值函数分解形式，进而表达更复杂的协作模式。
•连续决策过程•无监督，只有奖励信号反馈•反馈通常是延迟的•智能体行为互相影响 ②基于软注意力的信息整合星际争霸小场景 StarCraftIImicromanagementtasks 对战难点：•视野受限•兵力不对等微操技能：•集火•风筝（走a）实验结 (a) 果 •[key,value]形式的消息拆分设计•依据相关性高效整合信息 (b) (d 总结与展望 •通信行为本身就表达了某种意义上的“协作”。
•引入注意力通信后，值函数分解算法获得了显著的性能提升。
•研究展望：有限通信带宽下的算法优化，通信组群的自动学习。
2020IEEEInternationalConferenceonSystems,Man,andics(SMC2020)

本文地址：https://www.apjn.cn/w/2051/12825.html

声明：该资讯来自于互联网网友发布，如有侵犯您的权益请联系我们。

标签： #什么时候 #cj #什么意思 #counter #commit #contact #column #coin