EffectiveValueFunctionFactorizationviaAttentionalCommunication基于注意力通信学习有效的值函数分解
吴波*杨晓亚孙楚雄王瑞胡晓惠
*通讯方式:|wubo2018@
背景
多智能体强化学习方法(Multi-AgentReinforcementLearning,MARL)在人工智能和自动控制等领域得到了广泛的关注和研究。
在MARL中,多个智能体与环境进行交互来尽可能获得更多的累计奖励,通常可建模成去中心化部分可观测马尔科夫决策过程(Dec-POMDP)。
创新点 ①通信辅助值函数分解学习 引入通信来降低混合网络的“负担”,学习更通用 的值函数分解形式,进而表达更复杂的协作模式。
•连续决策过程•无监督,只有奖励信号反馈•反馈通常是延迟的•智能体行为互相影响 ②基于软注意力的信息整合 星际争霸小场景 StarCraftIImicromanagementtasks 对战难点:•视野受限•兵力不对等 微操技能:•集火•风筝(走a) 实 验 结 (a) 果 •[key,value]形式的消息拆分设计•依据相关性高效整合信息 (b) (d 总结与展望 •通信行为本身就表达了某种意义上的“协作”。
•引入注意力通信后,值函数分解算法获得了显著的性能提升。
•研究展望:有限通信带宽下的算法优化,通信组群的自动学习。
2020IEEEInternationalConferenceonSystems,Man,andics(SMC2020)
在MARL中,多个智能体与环境进行交互来尽可能获得更多的累计奖励,通常可建模成去中心化部分可观测马尔科夫决策过程(Dec-POMDP)。
创新点 ①通信辅助值函数分解学习 引入通信来降低混合网络的“负担”,学习更通用 的值函数分解形式,进而表达更复杂的协作模式。
•连续决策过程•无监督,只有奖励信号反馈•反馈通常是延迟的•智能体行为互相影响 ②基于软注意力的信息整合 星际争霸小场景 StarCraftIImicromanagementtasks 对战难点:•视野受限•兵力不对等 微操技能:•集火•风筝(走a) 实 验 结 (a) 果 •[key,value]形式的消息拆分设计•依据相关性高效整合信息 (b) (d 总结与展望 •通信行为本身就表达了某种意义上的“协作”。
•引入注意力通信后,值函数分解算法获得了显著的性能提升。
•研究展望:有限通信带宽下的算法优化,通信组群的自动学习。
2020IEEEInternationalConferenceonSystems,Man,andics(SMC2020)
声明:
该资讯来自于互联网网友发布,如有侵犯您的权益请联系我们。