序列多智能体强化学习算法

序列多智能体强化学习算法


2024年4月22日发(作者:)

34

卷第

3

2021

3

模式识别与人工智能

Pattern

Recognition

and

Artificial

Intelligence

Vol.

34

No.

3

Mar.

2021

列多智能体强化学习算法

史腾飞

1

王莉

1

黄子蓉

1

针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题

文中提出序列多智能体强化学习

算法

SMARL)

.

将智能体的控制网络划分为动作网络和目标网络

以深度确定性策略梯度和序列到序列分别作为

分割后的基础网络结构

分离算法结构与规模的相关性

.

同时

对算法输入输出进行特殊处理

分离算法策略与规

模的相关性

.

SMARL

中的智能体可较快适应新的环境

担任不同任务角色

实现快速学习

.

实验表明

SMARL

在适

应性

性能和训练效率上均较优

.

关键词

多智能体强化学习

深度确定性策略梯度

DDPG

,

序列到序列

Seq2Seq

,

分块结构

引用格式

史腾飞

王莉

黄子蓉

.

序列多智能体强化学习算法

.

模式识别与人工智能

2021,

34(

3

:

206-213.

DOI

10.16451/.

issn1003-6059.

202103002

中图法分类号

TP

18

Sequence

to

Sequence

Multi-agent

Reinforcement

Learning

Algorithm

SHI

Tengfei

'

,

WANG

Li

1

,

HUANG

Zirong

1

ABSTRACT

The

multi-agent

reinforcement

learning

algorithm

is

difficult

to

adapt

to

dynamically

changing

environments

of

agent

scale.

Aiming

at

this

problem

,

a

sequence

to

sequence

multi-agent

reinforcement

learning

algorithm(

SMARL)

based

on

sequential

learning

and

block

structure

is

proposed.

The

control

network

of

an

agent

is

divided

into

action

network

and

target

network

based

on

deep

deterministic

policy

gradient

structure

and

sequence-to-sequence

structure

,

respectively

,

and

the

correlation

between

algorithm

structure

and

agent

scale

is

removed.

Inputs

and

outputs

of

the

algorithm

are

also

processed

to

break

the

correlation

between

algorithm

policy

and

agent

scale.

Agents

in

SMARL

can

quickly

adapt

to

the

new

environment

,

take

different

roles

in

task

and

achieve

fast

learning.

Experiments

show

that

the

adaptability

,

performance

and

training

efficiency

of

the

proposed

algorithm

are

superior

to

baseline

algorithms.

Key

Words

Multi-agent

Reinforcement

Learning

,

Deep

Deterministic

Policy

Gradient

(

DDPG

),

Sequence

to

Sequence

(

Seq2Seq

)

,

Block

Structure

Citation

SHI

T

F

,

WANG

L

,

HUANG

Z

R.

Sequence

to

Sequence

Multi-agent

Reinforcement

Learning

Algorithm.

Pattern

Recognition

and

Artificial

Intelligence

,

2021

,

34(3)

:

206-213.

在多智能体强化学习

Multi-agent

Reinforce-

收稿日期

2020-10-10

录用日期

2020-11-20

Manuscript

received

October

10,

2020

accepted

November

20,

2020

ment

Learning

,

MARL)

技术中

智能体与环境及其

它智能体交互并获得奖励

Reward

通过奖励得到

信息并改善自身策略

.

多智能体强化学习对环境的

变化十分敏感

一旦环境发生变化

训练好的策略就

可能失效

.

智能体规模变化是一种典型的环境变化

,

国家自然科学基金项目

(No.

61872260)

资助

Supported

by

National

Natural

Science

Foundation

of

China(

No.

61872260)

可造成已有模型结构和策略失效

.

针对上述问题

要研究自适应智能体规模动态变化的

MARL.

本文责任编委陈恩红

Recommended

by

Associate

Editor

CHEN

Enhong

现今

MARL

在多个领域已有广泛应用

1

如构

建游戏人工智能

Artificial

Intelligence

AI

2

机器

1.

太原理工大学大数据学院

晋中

030600

1

.

College

of

Data

Science

,

Taiyuan

University

of

Technology,

人控制

3

和交通指挥⑷等

.

MARL

研究涉及范围广

与本文相关的研究可分为如下

3

方面

.

1

多智能体性能方面的研究

.

多智能体间如何

Jinzhong

030600

3

史腾飞等

:

序列多智能体强化学习算法

207

较好地合作

保证整体具有良好性能是所有

MARL

表征作为强化学习算法的输入

.

该方法本质上是扩

必须考虑的问题

.Lowe

5

提出同时适用于合作与

对抗场景的多智能体深度确定性策略梯度

(

Multi-

agent

Deep

Deterministic

Policy

Gradient

,

MADDPG

),

充模型网络可接受的输入维度大小

但当智能体规

模持续扩大时

仍会超出模型网络的最大范围

从而

导致模型无法运行

.

Long

|3

改进

MADDPG,

使用

使用集中训练分散执行的方式让智能体之间学会较

好的合作

提升整体性能

.

Foerster

等⑷提出反事实

注意力机制进行预处理观测

,

再将处理后的观测输

MADDPG,

使用编码器

(

Encoder)

实现注意力网

多智能体策略梯度

(

Counterfactual

Multi-agent

Policy

Gradients

,

COMA)

同样使用集中训练分散执行的

.

该方法在一定程度上可适应智能体规模的变化

但在面对每次智能体规模变动时

均需要重新调整

网络结构和进行再训练

.

方式

使用单个

Critic

多个

Actor

的网络结构

Actor

网络使用门控循环单兀

(

Gate

Recurrent

Unit,

GRU)

针对智能体规模动态变化引发的

MARL

失效

网络

,

提高整体团队的合作效果

.

Wei

7

提出多智

能体软

Q

学习算法

(

Multi-agent

Soft

Q-Learning,

MASQL)

将软

Q

学习

(

Soft

Q-Learning)

算法迁至多

智能体环境中

,

多智能体采用联合动作

使用全局回

报评判动作好坏

,

一定程度上提升团队的合作效果

.

上述算法在一定程度上提升多智能体团队合作和对

抗的性能

但是均存在难以适应智能体规模动态变

化的问题

.

2)

多智能体迁移性方面的研究

.

智能体的迁移

包括同种环境中不同智能体之间的迁移和不同环境

中智能体的迁移

.

研究如何较好地实现智能体的迁

移可提升训练效率及提升智能体对环境的适应性

.

Brys

等⑷通过重构奖励实现智能体策略的迁移

.

然可解决智能体策略的迁移问题

但在奖励重构的

过程中需要耗费大量资源

.Taylor

9

提出在源任

务和目标任务之间通过任务数据的双向传输

实现

源任务和目标任务并行学习

加快智能体学习的进

度和智能体知识的迁移

但在智能体规模巨大时

练速度仍然有限

.

Mnih

10

通过多线程模拟多个

环境空间的副本

智能体网络同时在多个环境空间

副本中进行学习

再将学习到的知识进行迁移整合

融入一个网络中

.

该方法在某种程度上也可视作一

种知识的迁移

但并不能直接解决规模变化的问题

.

3)

多智能体可扩展性和适应性方面的研究

.

实际应用中

智能体的规模通常不固定并且十分庞

.

当前一般解决思路是先人为调整设定模型的网

络结构

然后通过大量再训练甚至是从零训练

,

使模

型适应新的智能体规模

.

这种做法十分耗时耗力

本无法应对智能体规模动态变化的环境

.

Khan

11

提出训练一个可适用于所有智能体的单一策

使用该策略

(

参数共享

)

控制所有的智能体

现算法可适应任意规模的智能体环境

.

但是该方法

未注意到智能体规模对模型网络结构的影响

.

Zhang

12

提出使用降维方法对智能体观测进行表征

,

不同规模的智能体的观测表征在同个维度下

再将

的问题

本文提出序列多智能体强化学习算法

(

Sequence

to

Sequence

Multi-agent

Reinforcement

Learning

Algorithm

SMARL)

.

SMARL

中的智能体可

较快适应新的环境

担任不同任务角色

实现快速

学习

.

1

序列多智能体强化学习算法

SMARL

的核心思想是分离模型网络结构和模

型策略与智能体规模的相关性

,

具体框图见图

1.

1

SMARL

框图

Fig.

1

Framework

of

SMARL

首先在结构上

将智能体的控制网络划分为

2

个平行的模块一智能体动作网络

(

1

左侧

)

智能体目标网络

(

1

右侧

)

.

每个智能体的执行动

作由这两个网络的输出组成

.

为了适应算法结构

分智能体的观测数据和动作数据

.

智能体的观测分

为每个智能体的局部观测和所有智能体的全局观

本文称为个性观测和共性观测

.

个性观测不会随

智能体规模变化而变化

.

同理

,

算法中对智能体动作

也分成智能体的共性动作和个性动作

所有智能体

动作集的交集为共性动作

,

某智能体的动作集与共

208

模式识别与人工智能

PR&AI

34

性动作的差集为该智能体的个性动作

.

共性动作为

智能体的执行动作

个性动作为智能体执行动作的

智能体均有各自的

DDPG

网络

,

其中

,

Actor

网络参

数为

,

,

Critic

网络参数为

Q

,Actor-target

网络参数

目标

.

共性动作不会随智能体规模变化而变化

.

每个

智能体执行的动作由共性动作和个性动作共同

兹;

,Critic-target

网络参数为

Q

,i

=

0,1,

N

-

1

.

单个的

DDPG

网络仅接收其对应的智能体以自身作

组成

.

举例说明

在二维格子世界中存在

3

个可移动

且能相互之间抛小球的机械手臂

.

它们的共性观测

坐标原点

的局部观测

.

此时

使用单一策略

数共享

控制所有智能体的动作是有意义的

.

另外

为了实现参数共享

本文参考异步优势演

是统一坐标系下整个地图的观测

,

个性观测是以自

身为坐标原点的坐标系下的观测

.

它们的共性动作

为上

右抛

.

个性动作由智能体

ID

决定

0

评论家

Asynchronous

Advantage

Actor-Critic

,

A3C

的做法

10

,

在智能体动作网络中额外设置一

个不进行梯度更新的中心参数网络

,

Actor

网络参数

智能体的个性动作为

1

2

;

1

号智能体的个性

动作为

0

2

;

2

号智能体的个性动作为

0

1

.

经过上述分割

,

算法将与智能体规模相关和无

关的内容分割为两部分

.

考虑到深度确定性策略梯

(Deep

Deterministic

Policy

Gradient

,

DDPG

⑷在单智能强化学习上性能较优

,

本文在对智能

体观测和动作进行分割之后

,

将所有智能体的动作

策略视作同个策略

选取

DDPG

网络作为智能体动

作网络的内部结构

.

Khan

||

证明使用单智能体

网络和单一策略控制多个智能体的有效性

.

考虑到

序列到序列

Sequence-to-Sequence,

Seq2Seq

15-16

对输入输出长度的不敏感性

本文选取

Seq2Seq

作为智能体目标网络的内部结构

,

将智能

体规模视作序列长度

.

智能体动作网络输入为智能体的个性观测

,

出为智能体的共性动作

,

详细框图见图

2

.

2

智能体动作网络框图

Fig.

2

Framework

of

agent

action

network

智能体动作网络由多个

DDPG

网络组成

每个

,Critic

网络参数为

Q

n

网络接收其它

DDPG

络的参数进行软更新

软更新超参数

=

0

.

01

使用软更新更新其它

DDPG

网络

最终使所有

DDPG

网络的参数达到同个单一策略

.

智能体动作

网络更新方式如下

.

m

n

l

=

o

D

pg

-

Q

o

ib

Q

J

2

达到最小以更新

Critic

网络

其中

,Q

i

Critic

网络

的参数

,Q

-

为网络评估

,B_DDPG

为算法批次

Batch

Size

数量

,o

ib

r

ib

0

1

为抽取样本

Ju,

=

r

,b

+

Q

'

s

u,

+

1

'

s

u,

+

1

丨兹忆

Q

,

为折扣因子

.

Actor

网络更新如下

V

丿

B_DDPG

VQ

o,a

Q

i

s

o

V

o

丨兹

J

ib

lb

lb

L

lb

,

其中

i

Actor

网络的参数,

m

为网络策略

.

中心参数网络和其它网络相互更新如下

N

子兹

i

+

1

-

N

,

Q

N

子匕+

1

-

Q

,

i

子兹

N

+

1

-

i

,

Q

i

t

Q

N

+

1

-

Q

i

-

其中

中心参数网络的

Actor

网络参数为如

,Critic

网络参数为

Q

N

;

其它

DDPG

网络的

Actor

网络参数

,

,Critic

网络参数为

Q

i

,i=

0,1,-,

N-

1;

t

为软

更新超参数

.

智能体目标网络输入为智能体的共性观测

,

出为智能体的个性动作

框图如图

3

所示

.

网络由一

Seq2Seq

网络和一个存储器组成

,Seq2Seq

网络参

数为

.

Seq2Seq

网络由编码器和解码器组成

,

这两

部分内部结构均为循环神经网络

Recurrent

Neural

Network

,

RNN

.

编码器负责将输入序列表征到更

高的维度

由解码器将高维表征进行解码

输出新的

序列

.

Seq2Seq

网络负责学习和预测智能体间的合

作关系

.

智能体目标网络使用强化学习的思想

存储

器起到强化学习中

Q

的作用

负责记录某观测

3

史腾飞等

:

序列多智能体强化学习算法

209

到动作

序列

的映射及相应获得的奖励

.

Seq2Seq

部分相当于强化学习中的

Actor

负责学习

编号排序

,

每当智能体规模发生变化时

智能体重新

0

开始编号

.

具体如下

:

先定义

Seq2Seq

的奖励函数

,

通过强

最优观测序列到动作序列的映射及预测新观测序列

的动作序列

.

所有智能体的全局观测

共性观测

所有智能体在

整体坐标下的

全局观测序列

化学习的思想筛选奖励最大的观测序列到动作序列

的映射

将该映射视作一种翻译

再由

Seq2Seq

网络

进行学习

.

网络输出表示智能体间的合作关系

.

本文在

Seq2Seq

网络中引入

Attention

机制

提升

存储器

取数据训练

翻译

Seq2Seq

编码器

Seq2Seq

网络性能

[17]

.

Seq2Seq

的核心公式如下

m^x

Z*

q

=

I

RNN

^rRN^

k

l

rn

N|

注意力机制层

N

n

=

0

1

ln

a

1

E

s

s

0

,

a

N-1

o

0

,

o

1

0

N-1

s

s

s

s

解码器

|

RNN

RNN

f

RNN|

智能体动作目标

个性动作

其中

Seq2Seq

的参数

,

0

,o

,o

N

-1

为输入序

列,必

,必

-

1

为输出序列

.

SMARL

一个智能体的执行动作是由智能

体动作网络和智能体目标网络共同决定的

.

在训练

,

智能体动作网络和智能体目标网络交替进行

,

3

智能体目标网络框图

Fig.

3

Framework

of

agent

target

network

能体动作网络在每步都会训练

此时的智能体目标

网络停止更新

,

仅进行数据收集

,

以此保证环境的平

智能体目标网络输入的序列长度为智能体规

稳性

.

智能体目标网络每隔一定的回合

Episode

才进行一次翻译训练

在智能体目标网络训练时

序列中的元素维度为每个智能体的观测

.

输出序

列的长度同样为智能体规模

序列中的元素是智能体

编号

.

输入序列和输出序列的顺序均按照智能体的

能体目标网络停止更新

.

SMARL

参数汇总如表

1

所示

.

1

算法参数说明

Table

1

Description

of

algorithm

parameters

名称

Actor

网络参数

Actor-Target

网络参数

Critic

网络参数

Critic-Target

网络参数

Seq2Seq

网络参数

超参数

折扣因子

更新间隔步数

更新间隔回合数

学习率

超参数

软更新因子

游戏回合数

每回合最大步数

批次大小

参数

i

-

-

-

初值设置

随机初始化

复制

Actor

网络

随机初始化

复制

Critic

网络

随机初始化

0.95

100

25

0.

001

0. 01

-

-

对算法影响

-

-

-

-

-

E

_max

S

_max

影响训练效果

动作网络训练速度

目标网络训练速度

影响网络学习速度

影响更新效果

-

-

B

DDPG

256

影响训练速度

更新方式

梯度下降

软更新

梯度下降

软更新

梯度下降

不更新

不更新

不更新

不更新

不更新

不更新

不更新

不更新

SMARL

伪代码如下

.

Initialize

actor

central

parameter

network

with

%

Initialize

critic

central

parameter

network

with

Q

N

Initialize

sequence

to

sequence

network

with

Initialize

replay

buffer

M_DDPG

and

M_Seq

算法

SMARL

Initialize

N

actor

networks

and

N

critic

networks

with

i

and

Q

i

,i

=

0,1

N

1

Initialize

N

target

actor

networks

and

N

target

critic

Set

episode

number

E_max

,

max

step

of

every

epi

­

sode

S_max

and

batch

size

B_DDPG

networks

with

兹忆

6

i

,Q

Q

,

,i

=

0,1

N

1

210

模式识别与人工智能

PR

&AI

34

for

k

=

0

to

E_max

do

R

Seq

,

and

then

generate

collection

M

Train

the

sequence

to

sequence

network

by

data

for

j

=

0

to

S_max

do

Receive

individual-observation

of

every

agent

ddpg

d

°

d

^

°

d

Oj

j,0j,1

j,N-1

Input

0

譽&

into

N

actor

networks

and

get

A

ddpg

j

_

/

i,0^j,1

/

a

/

j

,N-

1

for

i

=

0

to

N

-

1

do

Sample

a

random

minibatch

of

B_DDPG

transitions

°

ib

,a

ib

厂诂

,

°诂+

1

from

M_DDPG

Compute

y

ib

=

r

ib

+

yQ

r

s

ib+1

s

ib+1

Update

the

critic

network

for

agent

i

using

min

L

-

=

Q

i

B

D

D

pg

-

Q

°

ib

a

ib

Q

i

2

Update

the

actor

network

for

agent

i

using

V

"

B_DDPG

'

JQ

o,a

QJ

ib

lb

lb

lb

if

j

m°d

100

==

0

then

饮时

+

1

-子

,

Q

TQ

i

+

1

-子

Q

N

+

1

-

N

,

Q

N

T

Q

i

+

1

-

Q

N

T^N

+

1

-

,

Q

i

T

Q

n

+

1

-

T

Q

i

end

if

end

for

Receive

universal-observation

of

all

agents

0

j

,0

°

j

,1

°

j

,

N-

1

Input

O

j

e

into

sequence

to

sequence

network

and

g

et

=

a

j,0

a

j,1

a

jN

Execute

actions

%

=

A'

j

dpg

+

A

j

eq

Receive

new

observations

and

rewards

j

,

N-

1

°

Oj+

d

1,0

°

°j+

d

1,1

°

d

j+1,N-1

O

seq

=

°

s

°

s

s

j+1

j+

1,0

j+

1,1

°

j+

1

,N-

1

Process

R^

ddp

then

get

R

ssq

Store

transition

0

,

A

j

dg

,

R

dpg

,

O

dpd

in

M_

DDPG

Store

transition

O

j

eq

,A

s

sq

,R

j

eq

in

M_Seq

end

for

if

km°d

25

=

=

0

then

Select

O

e

,A

m

,R

by

same

O

Seq

and

max

set

M

The

core

formula

m

L

L

1

seq

=

N

N-

1

s

s

s

s

s

0

n

=

0

ln

°

°

1

°

N

-

1

a

s

0

a

1

a

N_1

end

if

end

for

2

实验及结果分析

2.1

实验环境

为了验证算法的有效性

,

本文设定含有个性动

作的智能体合作的场景

.

在这类场景中

往往存在多

个同构智能体

这些智能体在不同情况下会变成具

有不同功能的角色个体

不同角色的智能体相互合

完成特定任务并获得奖励

.

本文设定并建立机械

手臂敲钉子的游戏场景作为典型实验环境

,

游戏规

则如下

.

1

游戏中存在多个机械手臂

,

每个机械手臂可

持有锤子或钉子

但同一时刻只能持有一种

,

即机械

手臂有

3

种状态:空手

持有锤子

持有钉子.

2

持有锤子的机械手臂可瞄准另一个机械手

执行敲击动作

.

3

持有钉子的机械手臂可执行扶钉子动作

.

4

只有当持有锤子的机械手臂执行敲击动作

敲击的目标为持有钉子并执行扶钉子动作的机械手

臂时

才算成功完成一次合作

.

当执行步数达到事先

设定最大值时一局游戏结束

.

5

一次合作完成后

,

给予完成合作的两个机械

手臂奖励

.

将完成合作的机械手臂设置为空手状态

,

其它机械手臂的状态不变

.

6

在游戏中

每个时间步所有机械手臂均可执

行一个动作

总共有如下

7

种动作:休息

拿钉子

钉子

扶钉子

拿锤子

放锤子

敲击某目标.其中

机械手臂执行敲击动作时

,

需要同时确定敲击目标

和敲击动作.

在游戏场景中

机械手臂表示同构的智能体

拿钉子

放钉子

扶钉子

拿锤子

放锤子和敲击

表示智能体的共性动作

敲击的某目标表示智能体

的个性动作

游戏中任务的完成表示智能体间的

合作.

相类似的场景如下

.

3

史腾飞

:

序列多智能体强化学习算法

211

1

宠物店猫咪洗澡游戏

.

游戏中存在两种工具

:

奖励

.

4

持有钉子的智能体执行拿锤子

放锤子或敲

猫粮和毛刷

每个店员同个时刻只能持有一种工具.

持有猫粮的人可执行喂食动作

吸引猫咪注意力.持

有毛刷的人趁机完成对某只猫咪的洗澡任务.游戏

中智能体动作如下:休息

拿猫粮

拿毛刷

喂食

刷某猫咪

放下猫粮

放下毛刷.

2

多人栽树游戏

.

游戏中存在

3

种物品

锄头

击的动作视为错误姿态变化

同样给予

-

0.01

分的

奖励

.

5

空手状态的智能体执行拿钉子或拿锤子动作

视为正确姿态变化

给予

0.001

分的奖励

.

本文使用算法的平均奖励作为算法性能的评估

指标

.

树苗

水壶

每人同个时刻只能持有一种物品.持有

锄头的人可以挖坑

当锄头离开时该坑洞会垮塌

土自动填埋回去

.

持有树苗的人可将树苗栽种进

在智能体规模动态变化的环境中

,

每种算法在

环境中总共进行

9

000

回合训练

,

每回合

256

某个坑洞中

.

持有水壶的人可以对某棵树苗进行浇

灌.游戏中智能体动作如下:休息

拿锄头

拿树苗

拿水壶

挖坑

栽种某个坑

浇灌某棵树苗

放下锄

放下树苗

放下水壶.

虽然上述游戏环境不同

,

但本质完全相同

.

2.2

实验设计

为了验证本文算法的适应性

性能和训练效率,

设计如下实验.

1

性能和适应性实验

.

对比本文算法和基线算

法在智能体规模动态变化环境中的运行效果

.

2

性能实验

.

对比本文算法和基线算法在智能

体规模不变的环境中的运行效果

.

3

算法性能稳定性和训练效率分析

.

对比本文

算法在

2

种情况下的表现

.

基线算法如下

典型单智能体强化学习算法

DDPG

典型多智能体强化学习算法

MADDPG

本文

简化后的

COMA-DNN

COMA

with

DNN

.

COMA

一种多智能体强化学习算法

算法内部使用

RNN

Actor

网络

,

考虑到本文实验环境较小

因此

Actor

网络使用深度神经网络

Deep

Neural

Network

,

DNN

替代

RNN.

为了保证公平性

,

所有算法均使用相同的超参

.

另夕卜

了保证

DDPG

MADDPG

COMA-DNN

可顺利运行

在智能体规模动态变化的环境中

使用

环境中智能体规模最大数量构建

3

种算法的网络

结构

.

2.3

环境奖励函数实验

本文对奖励函数做出如下设定

:

1

完成任务时

给予完成任务的智能体

5

分的

奖励

.

2

持有锤子的智能体敲击不成功或持有钉子的

智能体执行扶钉子但未被敲击

给予智能体

-0.2

分的奖励

.

3

持有锤子的智能体执行拿钉子

放钉子或扶

钉子的动作视为错误姿态变化

给予

-

0.01

分的

能体规模随回合的变化而变化

规模

E

mod

900

n

=

300

+

2

其中

E

=

0,1,

,8

999,

表示当前回合数

即每

300

回合进行

1

次智能体规模变化

智能体规模依次为

2,3

,4.

每种算法在环境中独立训练

5

获得奖励

平均值如表

2

所示

.

表中最优均值使用黑体数字表

最小波动使用斜体数字表示

.

2

各算法获得的奖励平均值

Table

2

Mean

reward

of

different

algorithms

智能体

规模

DDPG

MADDPG

COMA-DNN

SMARL

2

智能体

170.

02

111.07

116.79

570

.

61

(土

113

.

34

)

(

±

444.

27)

(

±

467.

16)

(

±

142.

65)

3

智能体

390.

38

103.

45

126.57

445

.

93

260.

26)

±413.8)

(

±

506.

26)

(土

111

.

48

)

4

智能体

585.

92

124.23

249.

84

788

.

38

(±390.61)

(

±

496.

93)

(

±

999.

36)

(土

197

.

09

)

N

智能体

173.71

-

8.9

-

7.

7

500

.

55

动态变化

±115.8

(

±

43.

6)

(土

31

.

51

)

(±125.14)

4

4

种算法在智能体规模不同时平均训练

奖励曲线

.

在智能体规模不变的环境中

每种算法在

智能体规模固定但不同环境中进行

10

000

回合训

,

每回合

256

.

各算法在环境中独立训练

5

.

(

a)

智能体规模为

2

(

a)

Agent

scale

set

to

2

212

模式识别与人工智能

(

PR&AI)

34

8

6

4

2

♦MADDPG

--

SMARL

DDPG

+

COMA

-

DNN

SMARL

-

N

稳疋

.

从图

4(d)

和表

2

中可看出

在智能规模动态变

化的环境中

SMARL

的性能表现

(Reward)

分别是

DDPG

3

MADDPG

14

倍和

COMA-DNN

21

并且

SMARL

表现的波动相对较稳定

.

由于

MADDPG

COMA-DNN

在智能体规模动态变化的

环境中并未达到收敛

因此此处这两种算法的性能

0

是按照它们在环境中的最大奖励进行评估

.

综上所述

,

不论在智能体规模动态变化的环境

0

2

4

6

8

10

还是在智能体规模不变的环境中

SMARL

性能

回合数

x10

3

(b)

智能体规模为

3

(b)Agent

scale

set

to

3

(

c)

智能体规模为

4

(

c)

Agent

scale

set

to

4

I

|

+

MADDPG

COMA-DNN

-

-

DDPG

SMARL

1000

----------------------------------------

8

6

4

2

-200

0

----------

-

2

-----------

4

-----------

6

-

----------

8

'

--------

10

回合数

X10

3

(d)

智能体规模为

N

(

动态变化

)

(

d)

Agent

scale

set

to

N

(

agent

scale

varying

dynamically)

4

智能体规模环境不同时各算法的平均训练奖励曲线

Fig. 4

Mean

training

reward

curves

of

each

algorithm

in

different

agent

scale

environments

实验结果见表

2

和图

4(a)

-

(c).

实验表明

智能体规模不变的环境中

,

SMARL

性能表现

(

Reward)

分别是

DDPG

2

MADDPG

5

倍和

COMA-DNN

4

并且

SMARL

表现的波动相对较

均最优

.

为了对比本文算法在两种环境中的性能稳定

,

将本文算法在智能体规模动态变化的环境中的

训练奖励按照智能体规模分类并单独抽出

,

使用插

入均值的方式将其补充为

9

000

回合的训练奖励曲

线

见图

4(a)

~(c)

SMARL-N

曲线

.

由图可看出

,

不论是在智能体规模动态变化的环境中还是在智能

体规模不变的环境中

相同规模时

,SMARL

均会收

敛到当前智能体规模下相同的最优解

.

另外

在同样的

9

000

回合下

,SMARL

得到可用

3

种智能体规模环境下的模型

其它算法仅可得

到用于一种智能体规模环境下的模型

.

因此

,

SMARL

在训练效率上优于基线算法

可节约训练

成本

.

综上所述

SMARL

在适应性

、性能及训练效率

上较优

.

2.4

有效性分析

Lillicrap

14]

通过一系列的实验指出

DDPG

可实现稳步学习

DDPG

在实验中比深度

Q

网络

(

Deep

Q

Networks

,

DQN)

更快找到问题的解

.

SMARL

智能体动作网络内部使用相互独立的

DDPG

网络

不同

DDPG

网络的输入向量

输出向量

的维度含义相同

因此训练过程可看作是同个

DDPG

网络在相同环境下的多次训练

DDPG

SMARL

中智能体动作网络的核心

,DDPG

的稳定学

习性质在一定程度上保证

SMARL

中智能体动作网

络的稳步学习和较好性能

.

Seq2Seq

15-16]

可学习从一个任意长度的序列到

另一个任意长度序列的映射

.

SMARL

,Seq2Seq

是智能体目标网络的核心

鉴于

Seq2Seq

可实现任

意长度的序列到序列映射

,SMARL

将智能体规模大

小视作序列长度

,Seq2Seq

可用于建模所有智能体

的观测到动作目标的映射

.

因此

,SMARL

的智能体

目标网络可较好地实现从智能体观测到智能体目标

映射的学习

.

3

史腾飞等

:

序列多智能体强化学习算法

doi

=

10.

1.1.721.6452

&rep

repl&type

pdf.

213

基于

DDPG

的动作网络和基于

Seq2Seq

的目标

网络构成

SMARL

的要件

,

稳步的学习性和良好的性

[10

]

MNIH

V

,

BADIA

A

P,

MIRZA

M

,

et

al.

Asynchronous

Methods

for

Deep

Reinforcement

Learning

//

Proc

of

the

33

rd

International

能在一定程度上保证本文算法的有效性

实验结果

Conference

on

Machine

Learning.

New

York,

USA:

ACM,

2016:

表明算法的有效性

.

1928-1937.

[11]

KHAN

A

,

ZHANG

C

,

LEE

D

D

,

et

al.

Scalable

Centralized

Deep

3

结束语

本文研究智能体规模对强化学习算法的影响

Multi-agent

Reinforcement

Learning

via

Policy

Gradients

[

C/OL]

.

[2020-09-25

]

.

https

//arxiv.

org/pd

1805.08776.

pdf.

[12]

ZHANG

J,

PAN

Y

Z,

YANG

H

T,

et

al

.

Scalable

Deep

Multi

­

agent

Reinforcement

Learning

via

Observation

Embedding

and

Pa­

提出序列多智能体强化算法

(

SMARL).

实验证实

rameter

Noise.

IEEE

Access

,

2019

,

7

:

54615

-54622.

本文算法对智能体规模动态变化具有较好的适应

在学习效率和算法性能上均较优

本文算法虽然

可自动适应智能体规模的动态变化

,

但在算法训练

阶段仍需要一个短期的智能体规模不变的环境进行

数据收集

因此

进一步提升算法对智能体规模动态

变化环境的适应性和促进智能体间合作是今后的研

究方向

.

参考文献

[1]

SHOHAM

Y,

POWERS

R,

GRENAGER

T.

Multi-agent

Reinforce

­

ment

Learning:

A

Critical

Survey

[

C^OL

]

.

[2020-09-25].

https

//

www.

cc.

gatech.

edu/classes/AY2008/cs7641

_

spring/handouts/

MALearning_ACriticalSurvey_2003

_05

16.

pdf.

[2]

VINYALS

O,

BABUSCHKIN

I,

CZARNECKI

W

M,

et

al

Grand

­

master

Level

in

StarCraft

II

Using

Multi-agent

Reinforcement

Lear

­

ning.

Nature

,

2019,

575(7782)

:

350-354.

[3]

MOHSENI-KABIR

A,

ISELE

D,

FUJIMURA

K.

Interaction-Aware

Multi

-agent

Reinforcement

Learning

for

Mobile

Agents

with

Indivi­

dual

Goals

//

Proc

of

the

International

Conference

on

Robotics

and

Automation.

Washington

,

USA:

IEEE,

2019

:

3370-3376.

[4]

ZHANG

H

C,

FENG

S

Y,

LIU

C,

et

al

Cityflow:

A

Multi-agent

Reinforcement

Learning

Environment

for

Large

Scale

City

Traffic

Scenario

//

Proc

of

the

World

Wide

Web

Conference

.

Berlin

,

Ger

­

many

:

Springer

,

2019

:

3620-3624.

[5]

LOWE

R,

WU

Y,

TAMAR

A

,

et

al.

Multi-agent

Actor-Critic

for

Mixed

Cooperative-Competitive

Environments

//

Proc

of

the

31

st

In

­

ternational

Conference

on

Neural

Information

Processing

Systems.

Cambridge

,

USA:

The

MIT

Press

,

2017:

6382-6393.

[6]

FOERSTER J

N,

FARQUHAR

G

,

AFOURAS

T,

et

al

Counterfac

­

tual

Multi-agent

Policy

Gradients

[

C/OL]

.

[2020-09-25

]

.

https

:

//

arxiv.

org/pdf/1705

.08926.

pdf.

[7]

WEI

E

,

WICKE

D

,

FREELAN

D

,

et

al.

Multiagent

Soft

Q-Learning

[

C/OL]

.

[2020-09-25

].

https

:

//arxiv

.

org/pd^1804.09817v1.

pdf.

[8]

BRYS

T,

HARUTYUNYAN

A

,

TAYLOR

M

E,

et

al

Policy

Trans

­

fer

Using

Reward

Shaping

//

Proc

of

the

International

Conference

on

Autonomous

Agents

and

Multiagent

Systems.

New

York

,

USA

:

ACM,

2015:

181-188.

[9]

TAYLOR

A,

DUPARIC

I,

GALVAN-LOPEZ

E,

et

al.

Transfer

Learning

in

Multi-agent

Systems

through

Parallel

Transfer

[

C/OL]

.

[2020-09-25

]

.

http

:

///

viewdoc/down

load?

[13

]

LONG

Q,

ZHOU

Z

H,

GUPTA

A,

et

al

.

Evolutionary

Population

Curriculum

for

Scaling

Multi-agent

Reinforcement

Learning

[

C/

OL]

.

[2020-09-25

].

https

:

//arxiv

.

org/pdf/2003

.

10423.

pdf.

[14]

LILLICRAP

T

P,

HUNT

J

J,

PRITZEL

A,

et

al

.

Continuous

Con

­

trol

with

Deep

Reinforcement

Learning

[

C/OL]

.

[2020-09-25

].

arxiv

.

org/pd

1509.

02971

v2

.

pdf.

[15]

SUTSKEVER

I,

VINYALS

O,

LE

Q

V.

Sequence

to

Sequence

Learning

with

Neural

Networks

//

Proc

of

the

27th

International

Conference

on

Neural

Information

Processing

Systems.

Cambridge,

USA:

The

MIT

Press,

2014:

3104-3112.

[16]

CHO

K,

VAN

MERRIENBOER

B,

GULCEHRE

C,

et

al

Lear

­

ning

Phrase

Representations

Using

RNN

Encoder-Decoder

for

Sta

­

tistical

Machine

Translation

//

Proc

of

the

Conference

on

Empirical

Methods

in

Natural

Language

Processing.

Stroudsburg,

USA:

ACL,

2014:

1724-1734.

[17]

LUONG

T,

PHAM

H,

MANNING

C

D.

Effective

Approaches

to

Attention-Based

Neural

Machine

Translation

//

Proc

of

the

Confe

­

rence

on

Empirical

Methods

in

Natural

Language

Processing.

Stroudsburg,

USA:

ACL,

2015:

1412-1421.

作者简介

史腾飞

硕士研究生

主要研究方向为强化

学习

.

E-mail:373321502@

qq.

com.

(

SHI

Tengfei

,

master

student.

His

research

interests

include

reinforcement

learning.

)

王莉

通信作者

博士

教授

主要研究方

向为人工智能

机器学习

.

E-mail:

wangli@

tyut.

edu.

cn.

(

WANG

Li

(

Corresponding

author

)

,

Ph.

D.

,

professor.

Her

research

interests

include

arti

­

ficial

intelligence

and

machine

learning.

)

黄子蓉

硕士研究生

主要研究方向为强化

学习

.

E-mail

453774012@

qq.

com.

(

HUANG

Zirong

,

master

student.

Her

re

­

search

interests

include

reinforcement

lear

­

ning.

)


发布者:admin,转转请注明出处:http://www.yc00.com/web/1713747340a2310496.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信