2024年4月22日发(作者:)
第
34
卷第
3
期
2021
年
3
月
模式识别与人工智能
Pattern
Recognition
and
Artificial
Intelligence
Vol.
34
No.
3
Mar.
2021
序
列多智能体强化学习算法
史腾飞
1
王莉
1
黄子蓉
1
摘
要
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题
,
文中提出序列多智能体强化学习
算法
(
SMARL)
.
将智能体的控制网络划分为动作网络和目标网络
,
以深度确定性策略梯度和序列到序列分别作为
分割后的基础网络结构
,
分离算法结构与规模的相关性
.
同时
,
对算法输入输出进行特殊处理
,
分离算法策略与规
模的相关性
.
SMARL
中的智能体可较快适应新的环境
,
担任不同任务角色
,
实现快速学习
.
实验表明
SMARL
在适
应性
、
性能和训练效率上均较优
.
关键词
多智能体强化学习
,
深度确定性策略梯度
(
DDPG
)
,
序列到序列
(
Seq2Seq
)
,
分块结构
引用格式
史腾飞
,
王莉
,
黄子蓉
.
序列多智能体强化学习算法
.
模式识别与人工智能
,
2021,
34(
3
)
:
206-213.
DOI
10.16451/.
issn1003-6059.
202103002
中图法分类号
TP
18
Sequence
to
Sequence
Multi-agent
Reinforcement
Learning
Algorithm
SHI
Tengfei
'
,
WANG
Li
1
,
HUANG
Zirong
1
ABSTRACT
The
multi-agent
reinforcement
learning
algorithm
is
difficult
to
adapt
to
dynamically
changing
environments
of
agent
scale.
Aiming
at
this
problem
,
a
sequence
to
sequence
multi-agent
reinforcement
learning
algorithm(
SMARL)
based
on
sequential
learning
and
block
structure
is
proposed.
The
control
network
of
an
agent
is
divided
into
action
network
and
target
network
based
on
deep
deterministic
policy
gradient
structure
and
sequence-to-sequence
structure
,
respectively
,
and
the
correlation
between
algorithm
structure
and
agent
scale
is
removed.
Inputs
and
outputs
of
the
algorithm
are
also
processed
to
break
the
correlation
between
algorithm
policy
and
agent
scale.
Agents
in
SMARL
can
quickly
adapt
to
the
new
environment
,
take
different
roles
in
task
and
achieve
fast
learning.
Experiments
show
that
the
adaptability
,
performance
and
training
efficiency
of
the
proposed
algorithm
are
superior
to
baseline
algorithms.
Key
Words
Multi-agent
Reinforcement
Learning
,
Deep
Deterministic
Policy
Gradient
(
DDPG
),
Sequence
to
Sequence
(
Seq2Seq
)
,
Block
Structure
Citation
SHI
T
F
,
WANG
L
,
HUANG
Z
R.
Sequence
to
Sequence
Multi-agent
Reinforcement
Learning
Algorithm.
Pattern
Recognition
and
Artificial
Intelligence
,
2021
,
34(3)
:
206-213.
在多智能体强化学习
(
Multi-agent
Reinforce-
收稿日期
:
2020-10-10
;
录用日期
:
2020-11-20
Manuscript
received
October
10,
2020
;
accepted
November
20,
2020
ment
Learning
,
MARL)
技术中
,
智能体与环境及其
它智能体交互并获得奖励
(
Reward
)
,
通过奖励得到
信息并改善自身策略
.
多智能体强化学习对环境的
变化十分敏感
,
一旦环境发生变化
,
训练好的策略就
可能失效
.
智能体规模变化是一种典型的环境变化
,
国家自然科学基金项目
(No.
61872260)
资助
Supported
by
National
Natural
Science
Foundation
of
China(
No.
61872260)
可造成已有模型结构和策略失效
.
针对上述问题
,
需
要研究自适应智能体规模动态变化的
MARL.
本文责任编委陈恩红
Recommended
by
Associate
Editor
CHEN
Enhong
现今
MARL
在多个领域已有广泛应用
[
1
]
,
如构
建游戏人工智能
(
Artificial
Intelligence
,
AI
)
[
2
]
、
机器
1.
太原理工大学大数据学院
晋中
030600
1
.
College
of
Data
Science
,
Taiyuan
University
of
Technology,
人控制
[
3
]
和交通指挥⑷等
.
MARL
研究涉及范围广
泛
,
与本文相关的研究可分为如下
3
方面
.
1
)
多智能体性能方面的研究
.
多智能体间如何
Jinzhong
030600
第
3
期
史腾飞等
:
序列多智能体强化学习算法
207
较好地合作
,
保证整体具有良好性能是所有
MARL
表征作为强化学习算法的输入
.
该方法本质上是扩
必须考虑的问题
.Lowe
等
[
5
]
提出同时适用于合作与
对抗场景的多智能体深度确定性策略梯度
(
Multi-
agent
Deep
Deterministic
Policy
Gradient
,
MADDPG
),
充模型网络可接受的输入维度大小
,
但当智能体规
模持续扩大时
,
仍会超出模型网络的最大范围
,
从而
导致模型无法运行
.
Long
等
[
|3
]
改进
MADDPG,
使用
使用集中训练分散执行的方式让智能体之间学会较
好的合作
,
提升整体性能
.
Foerster
等⑷提出反事实
注意力机制进行预处理观测
,
再将处理后的观测输
入
MADDPG,
使用编码器
(
Encoder)
实现注意力网
多智能体策略梯度
(
Counterfactual
Multi-agent
Policy
Gradients
,
COMA)
,
同样使用集中训练分散执行的
络
.
该方法在一定程度上可适应智能体规模的变化
,
但在面对每次智能体规模变动时
,
均需要重新调整
网络结构和进行再训练
.
方式
,
使用单个
Critic
多个
Actor
的网络结构
,
Actor
网络使用门控循环单兀
(
Gate
Recurrent
Unit,
GRU)
针对智能体规模动态变化引发的
MARL
失效
网络
,
提高整体团队的合作效果
.
Wei
等
[
7
]
提出多智
能体软
Q
学习算法
(
Multi-agent
Soft
Q-Learning,
MASQL)
,
将软
Q
学习
(
Soft
Q-Learning)
算法迁至多
智能体环境中
,
多智能体采用联合动作
,
使用全局回
报评判动作好坏
,
一定程度上提升团队的合作效果
.
上述算法在一定程度上提升多智能体团队合作和对
抗的性能
,
但是均存在难以适应智能体规模动态变
化的问题
.
2)
多智能体迁移性方面的研究
.
智能体的迁移
包括同种环境中不同智能体之间的迁移和不同环境
中智能体的迁移
.
研究如何较好地实现智能体的迁
移可提升训练效率及提升智能体对环境的适应性
.
Brys
等⑷通过重构奖励实现智能体策略的迁移
.
虽
然可解决智能体策略的迁移问题
,
但在奖励重构的
过程中需要耗费大量资源
.Taylor
等
[
9
]
提出在源任
务和目标任务之间通过任务数据的双向传输
,
实现
源任务和目标任务并行学习
,
加快智能体学习的进
度和智能体知识的迁移
,
但在智能体规模巨大时
,
训
练速度仍然有限
.
Mnih
等
[
10
]
通过多线程模拟多个
环境空间的副本
,
智能体网络同时在多个环境空间
副本中进行学习
,
再将学习到的知识进行迁移整合
,
融入一个网络中
.
该方法在某种程度上也可视作一
种知识的迁移
,
但并不能直接解决规模变化的问题
.
3)
多智能体可扩展性和适应性方面的研究
.
在
实际应用中
,
智能体的规模通常不固定并且十分庞
大
.
当前一般解决思路是先人为调整设定模型的网
络结构
,
然后通过大量再训练甚至是从零训练
,
使模
型适应新的智能体规模
.
这种做法十分耗时耗力
,
根
本无法应对智能体规模动态变化的环境
.
Khan
等
[
11
]
提出训练一个可适用于所有智能体的单一策
略
,
使用该策略
(
参数共享
)
控制所有的智能体
,
实
现算法可适应任意规模的智能体环境
.
但是该方法
未注意到智能体规模对模型网络结构的影响
.
Zhang
等
[
12
]
提出使用降维方法对智能体观测进行表征
,
将
不同规模的智能体的观测表征在同个维度下
,
再将
的问题
,
本文提出序列多智能体强化学习算法
(
Sequence
to
Sequence
Multi-agent
Reinforcement
Learning
Algorithm
,
SMARL)
.
SMARL
中的智能体可
较快适应新的环境
,
担任不同任务角色
,
实现快速
学习
.
1
序列多智能体强化学习算法
SMARL
的核心思想是分离模型网络结构和模
型策略与智能体规模的相关性
,
具体框图见图
1.
图
1
SMARL
框图
Fig.
1
Framework
of
SMARL
首先在结构上
,
将智能体的控制网络划分为
2
个平行的模块一智能体动作网络
(
图
1
左侧
)
和
智能体目标网络
(
图
1
右侧
)
.
每个智能体的执行动
作由这两个网络的输出组成
.
为了适应算法结构
,
划
分智能体的观测数据和动作数据
.
智能体的观测分
为每个智能体的局部观测和所有智能体的全局观
测
,
本文称为个性观测和共性观测
.
个性观测不会随
智能体规模变化而变化
.
同理
,
算法中对智能体动作
也分成智能体的共性动作和个性动作
,
所有智能体
动作集的交集为共性动作
,
某智能体的动作集与共
208
模式识别与人工智能
(
PR&AI
)
第
34
卷
性动作的差集为该智能体的个性动作
.
共性动作为
智能体的执行动作
,
个性动作为智能体执行动作的
智能体均有各自的
DDPG
网络
,
其中
,
Actor
网络参
数为
兹
,
,
Critic
网络参数为
Q
,Actor-target
网络参数
目标
.
共性动作不会随智能体规模变化而变化
.
每个
智能体执行的动作由共性动作和个性动作共同
为
兹;
,Critic-target
网络参数为
Q
;
,i
=
0,1,
…
,
N
-
1
.
单个的
DDPG
网络仅接收其对应的智能体以自身作
组成
.
举例说明
,
在二维格子世界中存在
3
个可移动
且能相互之间抛小球的机械手臂
.
它们的共性观测
为
“
坐标原点
”
的局部观测
.
此时
,
使用单一策略
(
参
数共享
)
控制所有智能体的动作是有意义的
.
另外
,
为了实现参数共享
,
本文参考异步优势演
是统一坐标系下整个地图的观测
,
个性观测是以自
身为坐标原点的坐标系下的观测
.
它们的共性动作
为上
、
下
、
左
、
右抛
.
个性动作由智能体
ID
决定
:
0
号
员
评论家
(
Asynchronous
Advantage
Actor-Critic
,
A3C
)
的做法
[
10
]
,
在智能体动作网络中额外设置一
个不进行梯度更新的中心参数网络
,
Actor
网络参数
智能体的个性动作为
1
号
、
2
号
;
1
号智能体的个性
动作为
0
号
、
2
号
;
2
号智能体的个性动作为
0
号
、
1
号
.
经过上述分割
,
算法将与智能体规模相关和无
关的内容分割为两部分
.
考虑到深度确定性策略梯
度
(Deep
Deterministic
Policy
Gradient
,
DDPG
)
网
络
[
⑷在单智能强化学习上性能较优
,
本文在对智能
体观测和动作进行分割之后
,
将所有智能体的动作
策略视作同个策略
,
选取
DDPG
网络作为智能体动
作网络的内部结构
.
Khan
等
[
||
]
证明使用单智能体
网络和单一策略控制多个智能体的有效性
.
考虑到
序列到序列
(
Sequence-to-Sequence,
Seq2Seq
)
网
络
[
15-16
]
对输入输出长度的不敏感性
,
本文选取
Seq2Seq
作为智能体目标网络的内部结构
,
将智能
体规模视作序列长度
.
智能体动作网络输入为智能体的个性观测
,
输
出为智能体的共性动作
,
详细框图见图
2
.
图
2
智能体动作网络框图
Fig.
2
Framework
of
agent
action
network
智能体动作网络由多个
DDPG
网络组成
,
每个
为
兹
”
,Critic
网络参数为
Q
n
网络接收其它
DDPG
网
络的参数进行软更新
(
软更新超参数
子
=
0
.
01
)
,
再
使用软更新更新其它
DDPG
网络
,
最终使所有
DDPG
网络的参数达到同个单一策略
.
智能体动作
网络更新方式如下
.
令
m
n
l
,
=
o
D
pg
移
(
九
-
Q
(
o
ib
,
山
Q
J
)
2
达到最小以更新
Critic
网络
,
其中
,Q
i
为
Critic
网络
的参数
,Q
(
•
-
)
为网络评估
,B_DDPG
为算法批次
(
Batch
Size
)
数量
,o
ib
、
两
、
r
ib
、
0
亦
1
为抽取样本
,
Ju,
=
r
,b
+
酌
Q
'
(
s
u,
+
1
,
滋
'
(
s
u,
+
1
丨兹忆
)
Q
;
)
,
酌
为折扣因子
.
Actor
网络更新如下
:
V
兹
丿
抑
B_DDPG
移
(
VQ
(
o,a
Q
i
)
s
o
)
V
汕
(
o
丨兹
J
ib
lb
lb
L
lb
)
,
其中
,
兹
i
为
Actor
网络的参数,
m
(
•
•
)
为网络策略
.
中心参数网络和其它网络相互更新如下
:
兹
N
饮
子兹
i
+
(
1
-
子
)
兹
N
,
Q
N
饮
子匕+
(
1
-
子
)
Q
,
兹
i
饮
子兹
N
+
(
1
-
子
)
兹
i
,
Q
i
饮
t
Q
N
+
(
1
-
子
)
Q
i
-
其中
:
中心参数网络的
Actor
网络参数为如
,Critic
网络参数为
Q
N
;
其它
DDPG
网络的
Actor
网络参数
为
兹
,
,Critic
网络参数为
Q
i
,i=
0,1,-,
N-
1;
t
为软
更新超参数
.
智能体目标网络输入为智能体的共性观测
,
输
出为智能体的个性动作
,
框图如图
3
所示
.
网络由一
个
Seq2Seq
网络和一个存储器组成
,Seq2Seq
网络参
数为
啄
.
Seq2Seq
网络由编码器和解码器组成
,
这两
部分内部结构均为循环神经网络
(
Recurrent
Neural
Network
,
RNN
)
.
编码器负责将输入序列表征到更
高的维度
,
由解码器将高维表征进行解码
,
输出新的
序列
.
Seq2Seq
网络负责学习和预测智能体间的合
作关系
.
智能体目标网络使用强化学习的思想
,
存储
器起到强化学习中
Q
的作用
,
负责记录某观测
(
序
第
3
期
史腾飞等
:
序列多智能体强化学习算法
209
列
)
到动作
(
序列
)
的映射及相应获得的奖励
.
Seq2Seq
部分相当于强化学习中的
Actor
,
负责学习
编号排序
,
每当智能体规模发生变化时
,
智能体重新
从
0
开始编号
.
具体如下
:
先定义
Seq2Seq
的奖励函数
,
通过强
最优观测序列到动作序列的映射及预测新观测序列
的动作序列
.
所有智能体的全局观测
(
共性观测
)
所有智能体在
整体坐标下的
全局观测序列
化学习的思想筛选奖励最大的观测序列到动作序列
的映射
,
将该映射视作一种翻译
,
再由
Seq2Seq
网络
进行学习
.
网络输出表示智能体间的合作关系
.
另
外
,
本文在
Seq2Seq
网络中引入
Attention
机制
,
提升
存储器
取数据训练
“
翻译
”
Seq2Seq
编码器
Seq2Seq
网络性能
[17]
.
Seq2Seq
的核心公式如下
:
m^x
Z*
q
=
I
RNN
^rRN^
k
l
rn
N|
注意力机制层
N
移
n
=
0
1
ln
(
a
1
E
s
s
0
,
,
…
,
a
N-1
o
0
,
o
1
,
…
,
0
N-1
,
啄
,
s
s
s
s
)
解码器
|
RNN
川
RNN
f
RNN|
智能体动作目标
(
个性动作
)
其中
,
啄
为
Seq2Seq
的参数
,
。
0
,o
:
,
…
,o
N
-1
为输入序
列,必
,
…
,必
-
1
为输出序列
.
在
SMARL
中
,
一个智能体的执行动作是由智能
▼
体动作网络和智能体目标网络共同决定的
.
在训练
时
,
智能体动作网络和智能体目标网络交替进行
,
智
图
3
智能体目标网络框图
Fig.
3
Framework
of
agent
target
network
能体动作网络在每步都会训练
,
此时的智能体目标
网络停止更新
,
仅进行数据收集
,
以此保证环境的平
智能体目标网络输入的序列长度为智能体规
稳性
.
智能体目标网络每隔一定的回合
(
Episode
)
才进行一次翻译训练
,
在智能体目标网络训练时
,
智
模
,
序列中的元素维度为每个智能体的观测
.
输出序
列的长度同样为智能体规模
,
序列中的元素是智能体
编号
.
输入序列和输出序列的顺序均按照智能体的
能体目标网络停止更新
.
SMARL
参数汇总如表
1
所示
.
表
1
算法参数说明
Table
1
Description
of
algorithm
parameters
名称
Actor
网络参数
Actor-Target
网络参数
Critic
网络参数
Critic-Target
网络参数
Seq2Seq
网络参数
超参数
,
折扣因子
更新间隔步数
更新间隔回合数
学习率
超参数
,
软更新因子
游戏回合数
每回合最大步数
批次大小
参数
兹
i
啄
酌
-
-
-
初值设置
随机初始化
复制
Actor
网络
随机初始化
复制
Critic
网络
随机初始化
0.95
100
25
0.
001
0. 01
-
-
对算法影响
-
-
-
-
-
子
E
_max
S
_max
影响训练效果
动作网络训练速度
目标网络训练速度
影响网络学习速度
影响更新效果
-
-
B
DDPG
256
影响训练速度
更新方式
梯度下降
软更新
梯度下降
软更新
梯度下降
不更新
不更新
不更新
不更新
不更新
不更新
不更新
不更新
SMARL
伪代码如下
.
Initialize
actor
central
parameter
network
with
%
Initialize
critic
central
parameter
network
with
Q
N
Initialize
sequence
to
sequence
network
with
啄
Initialize
replay
buffer
M_DDPG
and
M_Seq
算法
SMARL
Initialize
N
actor
networks
and
N
critic
networks
with
兹
i
and
Q
i
,i
=
0,1
,
…
,
N
一
1
Initialize
N
target
actor
networks
and
N
target
critic
Set
episode
number
E_max
,
max
step
of
every
epi
sode
S_max
and
batch
size
B_DDPG
networks
with
兹忆
饮
6
i
,Q
忆
饮
Q
,
,i
=
0,1
,
…
,
N
一
1
210
模式识别与人工智能
(
PR
&AI
)
第
34
卷
for
k
=
0
to
E_max
do
R
Seq
,
and
then
generate
collection
M
Train
the
sequence
to
sequence
network
by
data
for
j
=
0
to
S_max
do
Receive
individual-observation
of
every
agent
ddpg
=°
d
,
°
d
,
^
,
°
d
Oj
j,0j,1
j,N-1
Input
0
譽&
into
N
actor
networks
and
get
A
ddpg
j
_
/
i,0^j,1
/
,
…
,
a
/
j
,N-
1
for
i
=
0
to
N
-
1
do
Sample
a
random
minibatch
of
B_DDPG
transitions
(
°
ib
,a
ib
,
厂诂
,
°诂+
1
)
from
M_DDPG
Compute
y
ib
=
r
ib
+
yQ
r
(
s
ib+1
,
滋
(
s
ib+1
Update
the
critic
network
for
agent
i
using
min
L
-
=
Q
i
B
D
D
pg
移
(
-
Q
(
°
ib
,
a
ib
Q
i
)
)
2
Update
the
actor
network
for
agent
i
using
V
"
抑
B_DDPG
'
移
JQ
(
o,a
QJ
ib
lb
lb
lb
if
j
m°d
100
==
0
then
兹
饮时
+
(
1
-子
)
兹
,
Q
忆
饮
TQ
i
+
(
1
-子
)
Q
;
兹
N
饮
色
+
(
1
-
子
)
兹
N
,
Q
N
饮
T
Q
i
+
(
1
-
子
)
Q
N
兹
饮
T^N
+
(
1
-
子
)
兹
,
Q
i
饮
T
Q
n
+
(
1
-
T
)
Q
i
摇
end
if
end
for
Receive
universal-observation
of
all
agents
0
=°
j
,0
,
°
j
,1
,
…
,
°
j
,
N-
1
Input
O
j
e
into
sequence
to
sequence
network
and
g
et
=
a
j,0
,
a
j,1
,
…
,
a
jN
Execute
actions
%
=
A'
j
dpg
+
A
j
eq
Receive
new
observations
and
rewards
j
,
N-
1
°
Oj+
d
1,0
,
,
°
°j+
d
1,1
,
…
,
°
d
j+1,N-1
O
seq
=
°
s
,
°
s
s
j+1
j+
1,0
j+
1,1
,
…
,
°
j+
1
,N-
1
Process
R^
ddp
then
get
R
ssq
Store
transition
(
0
讐
,
A
j
dg
,
R
dpg
,
O
dpd
)
in
M_
DDPG
Store
transition
(
O
j
eq
,A
s
sq
,R
j
eq
)
in
M_Seq
end
for
if
km°d
25
=
=
0
then
Select
(
O
e
,A
m
,R
:
)
by
same
O
Seq
and
max
set
M
The
core
formula
m
L
L
1
严
seq
=
N
■
N-
1
,
移
s
s
s
s
s
0
n
=
0
ln
(
°
,
°
1
,
…
,
°
N
-
1
a
s
0
,
a
1
,
…
,
a
N_1
,
啄
)
摇
end
if
end
for
2
实验及结果分析
2.1
实验环境
为了验证算法的有效性
,
本文设定含有个性动
作的智能体合作的场景
.
在这类场景中
,
往往存在多
个同构智能体
,
这些智能体在不同情况下会变成具
有不同功能的角色个体
,
不同角色的智能体相互合
作
,
完成特定任务并获得奖励
.
本文设定并建立机械
手臂敲钉子的游戏场景作为典型实验环境
,
游戏规
则如下
.
1
)
游戏中存在多个机械手臂
,
每个机械手臂可
持有锤子或钉子
,
但同一时刻只能持有一种
,
即机械
手臂有
3
种状态:空手
、
持有锤子
、
持有钉子.
2
)
持有锤子的机械手臂可瞄准另一个机械手
臂
,
执行敲击动作
.
3
)
持有钉子的机械手臂可执行扶钉子动作
.
4
)
只有当持有锤子的机械手臂执行敲击动作
、
敲击的目标为持有钉子并执行扶钉子动作的机械手
臂时
,
才算成功完成一次合作
.
当执行步数达到事先
设定最大值时一局游戏结束
.
5
)
一次合作完成后
,
给予完成合作的两个机械
手臂奖励
.
将完成合作的机械手臂设置为空手状态
,
其它机械手臂的状态不变
.
6
)
在游戏中
,
每个时间步所有机械手臂均可执
行一个动作
,
总共有如下
7
种动作:休息
、
拿钉子
、
放
钉子
、
扶钉子
、
拿锤子
、
放锤子
、
敲击某目标.其中
,
当
机械手臂执行敲击动作时
,
需要同时确定敲击目标
和敲击动作.
在游戏场景中
,
机械手臂表示同构的智能体
,
休
息
、
拿钉子
、
放钉子
、
扶钉子
、
拿锤子
、
放锤子和敲击
表示智能体的共性动作
,
敲击的某目标表示智能体
的个性动作
,
游戏中任务的完成表示智能体间的
合作.
相类似的场景如下
.
第
3
期
史腾飞
等
:
序列多智能体强化学习算法
211
1
)
宠物店猫咪洗澡游戏
.
游戏中存在两种工具
:
奖励
.
4
)
持有钉子的智能体执行拿锤子
、
放锤子或敲
猫粮和毛刷
,
每个店员同个时刻只能持有一种工具.
持有猫粮的人可执行喂食动作
,
吸引猫咪注意力.持
有毛刷的人趁机完成对某只猫咪的洗澡任务.游戏
中智能体动作如下:休息
、
拿猫粮
、
拿毛刷
、
喂食
、
洗
刷某猫咪
、
放下猫粮
、
放下毛刷.
2
)
多人栽树游戏
.
游戏中存在
3
种物品
:
锄头
、
击的动作视为错误姿态变化
,
同样给予
-
0.01
分的
奖励
.
5
)
空手状态的智能体执行拿钉子或拿锤子动作
视为正确姿态变化
,
给予
0.001
分的奖励
.
本文使用算法的平均奖励作为算法性能的评估
指标
.
树苗
、
水壶
,
每人同个时刻只能持有一种物品.持有
锄头的人可以挖坑
,
当锄头离开时该坑洞会垮塌
(
土自动填埋回去
)
.
持有树苗的人可将树苗栽种进
在智能体规模动态变化的环境中
,
每种算法在
环境中总共进行
9
000
回合训练
,
每回合
256
步
,
智
某个坑洞中
.
持有水壶的人可以对某棵树苗进行浇
灌.游戏中智能体动作如下:休息
、
拿锄头
、
拿树苗
、
拿水壶
、
挖坑
、
栽种某个坑
、
浇灌某棵树苗
、
放下锄
头
、
放下树苗
、
放下水壶.
虽然上述游戏环境不同
,
但本质完全相同
.
2.2
实验设计
为了验证本文算法的适应性
、
性能和训练效率,
设计如下实验.
1
)
性能和适应性实验
.
对比本文算法和基线算
法在智能体规模动态变化环境中的运行效果
.
2
)
性能实验
.
对比本文算法和基线算法在智能
体规模不变的环境中的运行效果
.
3
)
算法性能稳定性和训练效率分析
.
对比本文
算法在
2
种情况下的表现
.
基线算法如下
:
典型单智能体强化学习算法
DDPG
、
典型多智能体强化学习算法
MADDPG
、
本文
简化后的
COMA-DNN
(
COMA
with
DNN
)
.
COMA
为
一种多智能体强化学习算法
,
算法内部使用
RNN
作
为
Actor
网络
,
考虑到本文实验环境较小
,
因此
Actor
网络使用深度神经网络
(
Deep
Neural
Network
,
DNN
)
替代
RNN.
为了保证公平性
,
所有算法均使用相同的超参
数
.
另夕卜
,
为
了保证
DDPG
、
MADDPG
、
COMA-DNN
可顺利运行
,
在智能体规模动态变化的环境中
,
使用
环境中智能体规模最大数量构建
3
种算法的网络
结构
.
2.3
环境奖励函数实验
本文对奖励函数做出如下设定
:
1
)
完成任务时
,
给予完成任务的智能体
5
分的
奖励
.
2
)
持有锤子的智能体敲击不成功或持有钉子的
智能体执行扶钉子但未被敲击
,
给予智能体
-0.2
分的奖励
.
3
)
持有锤子的智能体执行拿钉子
、
放钉子或扶
钉子的动作视为错误姿态变化
,
给予
-
0.01
分的
能体规模随回合的变化而变化
,
规模
E
mod
900
n
=
骔
300
夜
+
2
,
其中
E
=
0,1,
…
,8
999,
表示当前回合数
,
即每
300
回合进行
1
次智能体规模变化
,
智能体规模依次为
2,3
,4.
每种算法在环境中独立训练
5
次
,
获得奖励
平均值如表
2
所示
.
表中最优均值使用黑体数字表
示
,
最小波动使用斜体数字表示
.
表
2
各算法获得的奖励平均值
Table
2
Mean
reward
of
different
algorithms
智能体
规模
DDPG
MADDPG
COMA-DNN
SMARL
2
智能体
170.
02
111.07
116.79
570
.
61
(土
113
.
34
)
(
±
444.
27)
(
±
467.
16)
(
±
142.
65)
3
智能体
390.
38
103.
45
126.57
445
.
93
(±
260.
26)
±413.8)
(
±
506.
26)
(土
111
.
48
)
4
智能体
585.
92
124.23
249.
84
788
.
38
(±390.61)
(
±
496.
93)
(
±
999.
36)
(土
197
.
09
)
N
智能体
173.71
-
8.9
-
7.
7
500
.
55
(
动态变化
)
(
±115.8
)
(
±
43.
6)
(土
31
.
51
)
(±125.14)
图
4
为
4
种算法在智能体规模不同时平均训练
奖励曲线
.
在智能体规模不变的环境中
,
每种算法在
智能体规模固定但不同环境中进行
10
000
回合训
练
,
每回合
256
步
.
各算法在环境中独立训练
5
次
.
(
a)
智能体规模为
2
(
a)
Agent
scale
set
to
2
212
模式识别与人工智能
(
PR&AI)
第
34
卷
8
6
4
2
♦MADDPG
--
SMARL
—
DDPG
+
COMA
-
DNN
一
—
SMARL
-
N
稳疋
.
从图
4(d)
和表
2
中可看出
,
在智能规模动态变
化的环境中
,
SMARL
的性能表现
(Reward)
分别是
DDPG
的
3
倍
、
MADDPG
的
14
倍和
COMA-DNN
的
21
倍
,
并且
SMARL
表现的波动相对较稳定
.
由于
MADDPG
和
COMA-DNN
在智能体规模动态变化的
环境中并未达到收敛
,
因此此处这两种算法的性能
0
是按照它们在环境中的最大奖励进行评估
.
综上所述
,
不论在智能体规模动态变化的环境
0
2
4
6
8
10
中
,
还是在智能体规模不变的环境中
,
SMARL
性能
回合数
x10
3
(b)
智能体规模为
3
(b)Agent
scale
set
to
3
(
c)
智能体规模为
4
(
c)
Agent
scale
set
to
4
I
|
—
+
MADDPG
COMA-DNN
—
—
-
-
DDPG
SMARL
1000
----------------------------------------
8
6
4
2
-200
0
----------
-
2
-----------
4
-----------
6
-
----------
8
'
--------
10
回合数
X10
3
(d)
智能体规模为
N
(
动态变化
)
(
d)
Agent
scale
set
to
N
(
agent
scale
varying
dynamically)
图
4
智能体规模环境不同时各算法的平均训练奖励曲线
Fig. 4
Mean
training
reward
curves
of
each
algorithm
in
different
agent
scale
environments
实验结果见表
2
和图
4(a)
-
(c).
实验表明
,
在
智能体规模不变的环境中
,
SMARL
性能表现
(
Reward)
分别是
DDPG
的
2
倍
、
MADDPG
的
5
倍和
COMA-DNN
的
4
倍
,
并且
SMARL
表现的波动相对较
均最优
.
为了对比本文算法在两种环境中的性能稳定
性
,
将本文算法在智能体规模动态变化的环境中的
训练奖励按照智能体规模分类并单独抽出
,
使用插
入均值的方式将其补充为
9
000
回合的训练奖励曲
线
,
见图
4(a)
~(c)
中
SMARL-N
曲线
.
由图可看出
,
不论是在智能体规模动态变化的环境中还是在智能
体规模不变的环境中
,
相同规模时
,SMARL
均会收
敛到当前智能体规模下相同的最优解
.
另外
,
在同样的
9
000
回合下
,SMARL
得到可用
于
3
种智能体规模环境下的模型
,
其它算法仅可得
到用于一种智能体规模环境下的模型
.
因此
,
SMARL
在训练效率上优于基线算法
,
可节约训练
成本
.
综上所述
,
SMARL
在适应性
、性能及训练效率
上较优
.
2.4
有效性分析
Lillicrap
等
[
14]
通过一系列的实验指出
:
DDPG
可实现稳步学习
;
DDPG
在实验中比深度
Q
网络
(
Deep
Q
Networks
,
DQN)
更快找到问题的解
.
SMARL
中
,
智能体动作网络内部使用相互独立的
DDPG
网络
,
不同
DDPG
网络的输入向量
、
输出向量
的维度含义相同
,
因此训练过程可看作是同个
DDPG
网络在相同环境下的多次训练
,
即
DDPG
是
SMARL
中智能体动作网络的核心
,DDPG
的稳定学
习性质在一定程度上保证
SMARL
中智能体动作网
络的稳步学习和较好性能
.
Seq2Seq
[
15-16]
可学习从一个任意长度的序列到
另一个任意长度序列的映射
.
在
SMARL
中
,Seq2Seq
是智能体目标网络的核心
,
鉴于
Seq2Seq
可实现任
意长度的序列到序列映射
,SMARL
将智能体规模大
小视作序列长度
,Seq2Seq
可用于建模所有智能体
的观测到动作目标的映射
.
因此
,SMARL
的智能体
目标网络可较好地实现从智能体观测到智能体目标
映射的学习
.
第
3
期
史腾飞等
:
序列多智能体强化学习算法
doi
=
10.
1.1.721.6452
&rep
二
repl&type
二
pdf.
213
基于
DDPG
的动作网络和基于
Seq2Seq
的目标
网络构成
SMARL
的要件
,
稳步的学习性和良好的性
[10
]
MNIH
V
,
BADIA
A
P,
MIRZA
M
,
et
al.
Asynchronous
Methods
for
Deep
Reinforcement
Learning
//
Proc
of
the
33
rd
International
能在一定程度上保证本文算法的有效性
•
实验结果
Conference
on
Machine
Learning.
New
York,
USA:
ACM,
2016:
表明算法的有效性
.
1928-1937.
[11]
KHAN
A
,
ZHANG
C
,
LEE
D
D
,
et
al.
Scalable
Centralized
Deep
3
结束语
本文研究智能体规模对强化学习算法的影响
,
Multi-agent
Reinforcement
Learning
via
Policy
Gradients
[
C/OL]
.
[2020-09-25
]
.
https
;
//arxiv.
org/pd
》
1805.08776.
pdf.
[12]
ZHANG
J,
PAN
Y
Z,
YANG
H
T,
et
al
.
Scalable
Deep
Multi
agent
Reinforcement
Learning
via
Observation
Embedding
and
Pa
提出序列多智能体强化算法
(
SMARL).
实验证实
,
rameter
Noise.
IEEE
Access
,
2019
,
7
:
54615
-54622.
本文算法对智能体规模动态变化具有较好的适应
性
,
在学习效率和算法性能上均较优
•
本文算法虽然
可自动适应智能体规模的动态变化
,
但在算法训练
阶段仍需要一个短期的智能体规模不变的环境进行
数据收集
•
因此
,
进一步提升算法对智能体规模动态
变化环境的适应性和促进智能体间合作是今后的研
究方向
.
参考文献
[1]
SHOHAM
Y,
POWERS
R,
GRENAGER
T.
Multi-agent
Reinforce
ment
Learning:
A
Critical
Survey
[
C^OL
]
.
[2020-09-25].
https
;
//
www.
cc.
gatech.
edu/classes/AY2008/cs7641
_
spring/handouts/
MALearning_ACriticalSurvey_2003
_05
16.
pdf.
[2]
VINYALS
O,
BABUSCHKIN
I,
CZARNECKI
W
M,
et
al
Grand
master
Level
in
StarCraft
II
Using
Multi-agent
Reinforcement
Lear
ning.
Nature
,
2019,
575(7782)
:
350-354.
[3]
MOHSENI-KABIR
A,
ISELE
D,
FUJIMURA
K.
Interaction-Aware
Multi
-agent
Reinforcement
Learning
for
Mobile
Agents
with
Indivi
dual
Goals
//
Proc
of
the
International
Conference
on
Robotics
and
Automation.
Washington
,
USA:
IEEE,
2019
:
3370-3376.
[4]
ZHANG
H
C,
FENG
S
Y,
LIU
C,
et
al
Cityflow:
A
Multi-agent
Reinforcement
Learning
Environment
for
Large
Scale
City
Traffic
Scenario
//
Proc
of
the
World
Wide
Web
Conference
.
Berlin
,
Ger
many
:
Springer
,
2019
:
3620-3624.
[5]
LOWE
R,
WU
Y,
TAMAR
A
,
et
al.
Multi-agent
Actor-Critic
for
Mixed
Cooperative-Competitive
Environments
//
Proc
of
the
31
st
In
ternational
Conference
on
Neural
Information
Processing
Systems.
Cambridge
,
USA:
The
MIT
Press
,
2017:
6382-6393.
[6]
FOERSTER J
N,
FARQUHAR
G
,
AFOURAS
T,
et
al
Counterfac
tual
Multi-agent
Policy
Gradients
[
C/OL]
.
[2020-09-25
]
.
https
:
//
arxiv.
org/pdf/1705
.08926.
pdf.
[7]
WEI
E
,
WICKE
D
,
FREELAN
D
,
et
al.
Multiagent
Soft
Q-Learning
[
C/OL]
.
[2020-09-25
].
https
:
//arxiv
.
org/pd^1804.09817v1.
pdf.
[8]
BRYS
T,
HARUTYUNYAN
A
,
TAYLOR
M
E,
et
al
Policy
Trans
fer
Using
Reward
Shaping
//
Proc
of
the
International
Conference
on
Autonomous
Agents
and
Multiagent
Systems.
New
York
,
USA
:
ACM,
2015:
181-188.
[9]
TAYLOR
A,
DUPARIC
I,
GALVAN-LOPEZ
E,
et
al.
Transfer
Learning
in
Multi-agent
Systems
through
Parallel
Transfer
[
C/OL]
.
[2020-09-25
]
.
http
:
///
viewdoc/down
load?
[13
]
LONG
Q,
ZHOU
Z
H,
GUPTA
A,
et
al
.
Evolutionary
Population
Curriculum
for
Scaling
Multi-agent
Reinforcement
Learning
[
C/
OL]
.
[2020-09-25
].
https
:
//arxiv
.
org/pdf/2003
.
10423.
pdf.
[14]
LILLICRAP
T
P,
HUNT
J
J,
PRITZEL
A,
et
al
.
Continuous
Con
trol
with
Deep
Reinforcement
Learning
[
C/OL]
.
[2020-09-25
].
arxiv
.
org/pd
》
1509.
02971
v2
.
pdf.
[15]
SUTSKEVER
I,
VINYALS
O,
LE
Q
V.
Sequence
to
Sequence
Learning
with
Neural
Networks
//
Proc
of
the
27th
International
Conference
on
Neural
Information
Processing
Systems.
Cambridge,
USA:
The
MIT
Press,
2014:
3104-3112.
[16]
CHO
K,
VAN
MERRIENBOER
B,
GULCEHRE
C,
et
al
Lear
ning
Phrase
Representations
Using
RNN
Encoder-Decoder
for
Sta
tistical
Machine
Translation
//
Proc
of
the
Conference
on
Empirical
Methods
in
Natural
Language
Processing.
Stroudsburg,
USA:
ACL,
2014:
1724-1734.
[17]
LUONG
T,
PHAM
H,
MANNING
C
D.
Effective
Approaches
to
Attention-Based
Neural
Machine
Translation
//
Proc
of
the
Confe
rence
on
Empirical
Methods
in
Natural
Language
Processing.
Stroudsburg,
USA:
ACL,
2015:
1412-1421.
作者简介
史腾飞
,
硕士研究生
,
主要研究方向为强化
学习
.
E-mail:373321502@
qq.
com.
(
SHI
Tengfei
,
master
student.
His
research
interests
include
reinforcement
learning.
)
王莉
(
通信作者
)
,
博士
,
教授
,
主要研究方
向为人工智能
、
机器学习
.
E-mail:
wangli@
tyut.
edu.
cn.
(
WANG
Li
(
Corresponding
author
)
,
Ph.
D.
,
professor.
Her
research
interests
include
arti
ficial
intelligence
and
machine
learning.
)
黄子蓉
,
硕士研究生
,
主要研究方向为强化
学习
.
:
453774012@
qq.
com.
(
HUANG
Zirong
,
master
student.
Her
re
search
interests
include
reinforcement
lear
ning.
)
发布者:admin,转转请注明出处:http://www.yc00.com/web/1713747340a2310496.html
评论列表(0条)