序列多智能体强化学习算法

admin•2025-05-20 11:35:53•网站建设•阅读51

序列多智能体强化学习算法

2024年4月22日发(作者：)

第

卷第

期

2021

年

月

模式识别与人工智能

Pattern

Recognition

and

Artificial

Intelligence

Vol.

No.

Mar.

2021

序

列多智能体强化学习算法

史腾飞

王莉

黄子蓉

摘

要

针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题

，

文中提出序列多智能体强化学习

算法

（

SMARL）

将智能体的控制网络划分为动作网络和目标网络

，

以深度确定性策略梯度和序列到序列分别作为

分割后的基础网络结构

，

分离算法结构与规模的相关性

同时

，

对算法输入输出进行特殊处理

，

分离算法策略与规

模的相关性

SMARL

中的智能体可较快适应新的环境

，

担任不同任务角色

，

实现快速学习

实验表明

SMARL

在适

应性

、

性能和训练效率上均较优

关键词

多智能体强化学习

，

深度确定性策略梯度

（

DDPG

）

序列到序列

（

Seq2Seq

）

分块结构

引用格式

史腾飞

，

王莉

，

黄子蓉

序列多智能体强化学习算法

模式识别与人工智能

，

2021,

34（

）

206-213.

DOI

10.16451/.

issn1003-6059.

202103002

中图法分类号

Sequence

Multi-agent

Reinforcement

Learning

Algorithm

SHI

Tengfei

WANG

HUANG

Zirong

ABSTRACT

The

multi-agent

reinforcement

learning

algorithm

difficult

adapt

dynamically

changing

environments

agent

scale.

Aiming

this

problem

sequence

multi-agent

reinforcement

learning

algorithm(

SMARL)

based

sequential

learning

and

block

structure

proposed.

The

control

network

agent

divided

into

action

network

and

target

network

based

deep

deterministic

policy

gradient

structure

and

sequence-to-sequence

structure

respectively

and

the

correlation

between

algorithm

structure

and

agent

scale

removed.

Inputs

and

outputs

the

algorithm

are

also

processed

break

the

correlation

between

algorithm

policy

and

agent

scale.

Agents

SMARL

can

quickly

adapt

the

new

environment

take

different

roles

task

and

achieve

fast

learning.

Experiments

show

that

the

adaptability

performance

and

training

efficiency

the

proposed

algorithm

are

superior

baseline

algorithms.

Key

Words

Multi-agent

Reinforcement

Learning

Deep

Deterministic

Policy

Gradient

(

DDPG

Sequence

(

Seq2Seq

)

Block

Structure

Citation

SHI

WANG

HUANG

Sequence

Multi-agent

Reinforcement

Learning

Algorithm.

Pattern

Recognition

and

Artificial

Intelligence

2021

34(3)

206-213.

在多智能体强化学习

（

Multi-agent

Reinforce-

收稿日期

：

2020-10-10

；

录用日期

：

2020-11-20

Manuscript

received

October

10,

2020

；

accepted

November

20,

2020

ment

Learning

MARL）

技术中

，

智能体与环境及其

它智能体交互并获得奖励

（

Reward

）

，

通过奖励得到

信息并改善自身策略

多智能体强化学习对环境的

变化十分敏感

，

一旦环境发生变化

，

训练好的策略就

可能失效

智能体规模变化是一种典型的环境变化

国家自然科学基金项目

(No.

61872260)

资助

Supported

National

Natural

Science

Foundation

China(

No.

61872260)

可造成已有模型结构和策略失效

针对上述问题

，

需

要研究自适应智能体规模动态变化的

MARL.

本文责任编委陈恩红

Recommended

Associate

Editor

CHEN

Enhong

现今

MARL

在多个领域已有广泛应用

［

］

，

如构

建游戏人工智能

（

Artificial

Intelligence

，

）

［

］

、

机器

太原理工大学大数据学院

晋中

030600

College

Data

Science

Taiyuan

University

Technology,

人控制

［

］

和交通指挥⑷等

MARL

研究涉及范围广

泛

，

与本文相关的研究可分为如下

方面

）

多智能体性能方面的研究

多智能体间如何

Jinzhong

030600

第

期

史腾飞等

序列多智能体强化学习算法

207

较好地合作

，

保证整体具有良好性能是所有

MARL

表征作为强化学习算法的输入

该方法本质上是扩

必须考虑的问题

.Lowe

等

［

］

提出同时适用于合作与

对抗场景的多智能体深度确定性策略梯度

(

Multi-

agent

Deep

Deterministic

Policy

Gradient

MADDPG

充模型网络可接受的输入维度大小

，

但当智能体规

模持续扩大时

，

仍会超出模型网络的最大范围

，

从而

导致模型无法运行

Long

等

［

］

改进

MADDPG,

使用

使用集中训练分散执行的方式让智能体之间学会较

好的合作

，

提升整体性能

Foerster

等⑷提出反事实

注意力机制进行预处理观测

再将处理后的观测输

入

MADDPG,

使用编码器

(

Encoder)

实现注意力网

多智能体策略梯度

(

Counterfactual

Multi-agent

Policy

Gradients

COMA)

，

同样使用集中训练分散执行的

络

该方法在一定程度上可适应智能体规模的变化

，

但在面对每次智能体规模变动时

，

均需要重新调整

网络结构和进行再训练

方式

，

使用单个

Critic

多个

Actor

的网络结构

，

Actor

网络使用门控循环单兀

(

Gate

Recurrent

Unit,

GRU)

针对智能体规模动态变化引发的

MARL

失效

网络

提高整体团队的合作效果

Wei

等

［

］

提出多智

能体软

学习算法

(

Multi-agent

Soft

Q-Learning,

MASQL)

，

将软

学习

(

Soft

Q-Learning)

算法迁至多

智能体环境中

多智能体采用联合动作

，

使用全局回

报评判动作好坏

一定程度上提升团队的合作效果

上述算法在一定程度上提升多智能体团队合作和对

抗的性能

，

但是均存在难以适应智能体规模动态变

化的问题

多智能体迁移性方面的研究

智能体的迁移

包括同种环境中不同智能体之间的迁移和不同环境

中智能体的迁移

研究如何较好地实现智能体的迁

移可提升训练效率及提升智能体对环境的适应性

Brys

等⑷通过重构奖励实现智能体策略的迁移

虽

然可解决智能体策略的迁移问题

，

但在奖励重构的

过程中需要耗费大量资源

.Taylor

等

［

］

提出在源任

务和目标任务之间通过任务数据的双向传输

，

实现

源任务和目标任务并行学习

，

加快智能体学习的进

度和智能体知识的迁移

，

但在智能体规模巨大时

，

训

练速度仍然有限

Mnih

等

［

］

通过多线程模拟多个

环境空间的副本

，

智能体网络同时在多个环境空间

副本中进行学习

，

再将学习到的知识进行迁移整合

，

融入一个网络中

该方法在某种程度上也可视作一

种知识的迁移

，

但并不能直接解决规模变化的问题

多智能体可扩展性和适应性方面的研究

在

实际应用中

，

智能体的规模通常不固定并且十分庞

大

当前一般解决思路是先人为调整设定模型的网

络结构

，

然后通过大量再训练甚至是从零训练

使模

型适应新的智能体规模

这种做法十分耗时耗力

，

根

本无法应对智能体规模动态变化的环境

Khan

等

［

］

提出训练一个可适用于所有智能体的单一策

略

，

使用该策略

(

参数共享

)

控制所有的智能体

，

实

现算法可适应任意规模的智能体环境

但是该方法

未注意到智能体规模对模型网络结构的影响

Zhang

等

［

］

提出使用降维方法对智能体观测进行表征

将

不同规模的智能体的观测表征在同个维度下

，

再将

的问题

，

本文提出序列多智能体强化学习算法

(

Sequence

Multi-agent

Reinforcement

Learning

Algorithm

，

SMARL)

SMARL

中的智能体可

较快适应新的环境

，

担任不同任务角色

，

实现快速

学习

序列多智能体强化学习算法

SMARL

的核心思想是分离模型网络结构和模

型策略与智能体规模的相关性

具体框图见图

图

SMARL

框图

Fig.

Framework

SMARL

首先在结构上

，

将智能体的控制网络划分为

个平行的模块一智能体动作网络

(

图

左侧

)

和

智能体目标网络

(

图

右侧

)

每个智能体的执行动

作由这两个网络的输出组成

为了适应算法结构

，

划

分智能体的观测数据和动作数据

智能体的观测分

为每个智能体的局部观测和所有智能体的全局观

测

，

本文称为个性观测和共性观测

个性观测不会随

智能体规模变化而变化

同理

算法中对智能体动作

也分成智能体的共性动作和个性动作

，

所有智能体

动作集的交集为共性动作

某智能体的动作集与共

208

模式识别与人工智能

（

PR&AI

）

第

卷

性动作的差集为该智能体的个性动作

共性动作为

智能体的执行动作

，

个性动作为智能体执行动作的

智能体均有各自的

DDPG

网络

其中

Actor

网络参

数为

兹

Critic

网络参数为

,Actor-target

网络参数

目标

共性动作不会随智能体规模变化而变化

每个

智能体执行的动作由共性动作和个性动作共同

为

兹;

,Critic-target

网络参数为

；

0,1,

…

，

单个的

DDPG

网络仅接收其对应的智能体以自身作

组成

举例说明

，

在二维格子世界中存在

个可移动

且能相互之间抛小球的机械手臂

它们的共性观测

为

“

坐标原点

”

的局部观测

此时

，

使用单一策略

（

参

数共享

）

控制所有智能体的动作是有意义的

另外

，

为了实现参数共享

，

本文参考异步优势演

是统一坐标系下整个地图的观测

个性观测是以自

身为坐标原点的坐标系下的观测

它们的共性动作

为上

、

下

、

左

、

右抛

个性动作由智能体

决定

：

号

员

评论家

（

Asynchronous

Advantage

Actor-Critic

A3C

）

的做法

［

］

在智能体动作网络中额外设置一

个不进行梯度更新的中心参数网络

Actor

网络参数

智能体的个性动作为

号

、

号

;

号智能体的个性

动作为

号

、

号

;

号智能体的个性动作为

号

、

号

经过上述分割

算法将与智能体规模相关和无

关的内容分割为两部分

考虑到深度确定性策略梯

度

（Deep

Deterministic

Policy

Gradient

DDPG

）

网

络

［

⑷在单智能强化学习上性能较优

本文在对智能

体观测和动作进行分割之后

将所有智能体的动作

策略视作同个策略

，

选取

DDPG

网络作为智能体动

作网络的内部结构

Khan

等

［

］

证明使用单智能体

网络和单一策略控制多个智能体的有效性

考虑到

序列到序列

（

Sequence-to-Sequence,

Seq2Seq

）

网

络

［

15-16

］

对输入输出长度的不敏感性

，

本文选取

Seq2Seq

作为智能体目标网络的内部结构

将智能

体规模视作序列长度

智能体动作网络输入为智能体的个性观测

输

出为智能体的共性动作

详细框图见图

图

智能体动作网络框图

Fig.

Framework

agent

action

network

智能体动作网络由多个

DDPG

网络组成

，

每个

为

兹

”

,Critic

网络参数为

网络接收其它

DDPG

网

络的参数进行软更新

（

软更新超参数

子

）

，

再

使用软更新更新其它

DDPG

网络

，

最终使所有

DDPG

网络的参数达到同个单一策略

智能体动作

网络更新方式如下

令

，

移

（

九

（

，

山

）

达到最小以更新

Critic

网络

，

其中

为

Critic

网络

的参数

（

•

）

为网络评估

,B_DDPG

为算法批次

（

Batch

Size

）

数量

、

两

、

亦

为抽取样本

，

Ju,

酌

（

，

滋

（

丨兹忆

）

；

）

酌

为折扣因子

Actor

网络更新如下

：

兹

丿

抑

B_DDPG

移

（

o,a

）

汕

（

丨兹

）

其中

，

兹

为

Actor

网络的参数,

（

•

）

为网络策略

中心参数网络和其它网络相互更新如下

：

兹

饮

子兹

（

子

）

兹

饮

子匕+

（

子

）

兹

饮

子兹

（

子

）

兹

饮

（

子

）

其中

：

中心参数网络的

Actor

网络参数为如

,Critic

网络参数为

;

其它

DDPG

网络的

Actor

网络参数

为

兹

,Critic

网络参数为

,i=

0,1,-,

N-

为软

更新超参数

智能体目标网络输入为智能体的共性观测

输

出为智能体的个性动作

，

框图如图

所示

网络由一

个

Seq2Seq

网络和一个存储器组成

,Seq2Seq

网络参

数为

啄

Seq2Seq

网络由编码器和解码器组成

这两

部分内部结构均为循环神经网络

（

Recurrent

Neural

Network

RNN

）

编码器负责将输入序列表征到更

高的维度

，

由解码器将高维表征进行解码

，

输出新的

序列

Seq2Seq

网络负责学习和预测智能体间的合

作关系

智能体目标网络使用强化学习的思想

，

存储

器起到强化学习中

的作用

，

负责记录某观测

（

序

第

期

史腾飞等

序列多智能体强化学习算法

209

列

）

到动作

（

序列

）

的映射及相应获得的奖励

Seq2Seq

部分相当于强化学习中的

Actor

，

负责学习

编号排序

每当智能体规模发生变化时

，

智能体重新

从

开始编号

具体如下

先定义

Seq2Seq

的奖励函数

通过强

最优观测序列到动作序列的映射及预测新观测序列

的动作序列

所有智能体的全局观测

（

共性观测

）

所有智能体在

整体坐标下的

全局观测序列

化学习的思想筛选奖励最大的观测序列到动作序列

的映射

，

将该映射视作一种翻译

，

再由

Seq2Seq

网络

进行学习

网络输出表示智能体间的合作关系

另

外

，

本文在

Seq2Seq

网络中引入

Attention

机制

，

提升

存储器

取数据训练

“

翻译

”

Seq2Seq

编码器

Seq2Seq

网络性能

[17]

Seq2Seq

的核心公式如下

：

m^x

RNN

^rRN^

注意力机制层

移

（

，

…

，

N-1

，

…

，

N-1

，

啄

，

）

解码器

RNN

川

RNN

RNN|

智能体动作目标

（

个性动作

）

其中

，

啄

为

Seq2Seq

的参数

。

：

，

…

-1

为输入序

列,必

，

…

,必

为输出序列

在

SMARL

中

，

一个智能体的执行动作是由智能

▼

体动作网络和智能体目标网络共同决定的

在训练

时

智能体动作网络和智能体目标网络交替进行

智

图

智能体目标网络框图

Fig.

Framework

agent

target

network

能体动作网络在每步都会训练

，

此时的智能体目标

网络停止更新

仅进行数据收集

以此保证环境的平

智能体目标网络输入的序列长度为智能体规

稳性

智能体目标网络每隔一定的回合

（

Episode

）

才进行一次翻译训练

，

在智能体目标网络训练时

，

智

模

，

序列中的元素维度为每个智能体的观测

输出序

列的长度同样为智能体规模

，

序列中的元素是智能体

编号

输入序列和输出序列的顺序均按照智能体的

能体目标网络停止更新

SMARL

参数汇总如表

所示

表

算法参数说明

Table

Description

algorithm

parameters

名称

Actor

网络参数

Actor-Target

网络参数

Critic

网络参数

Critic-Target

网络参数

Seq2Seq

网络参数

超参数

，

折扣因子

更新间隔步数

更新间隔回合数

学习率

超参数

，

软更新因子

游戏回合数

每回合最大步数

批次大小

参数

兹

啄

酌

初值设置

随机初始化

复制

Actor

网络

随机初始化

复制

Critic

网络

随机初始化

0.95

100

001

0. 01

对算法影响

子

_max

影响训练效果

动作网络训练速度

目标网络训练速度

影响网络学习速度

影响更新效果

DDPG

256

影响训练速度

更新方式

梯度下降

软更新

梯度下降

软更新

梯度下降

不更新

SMARL

伪代码如下

Initialize

actor

central

parameter

network

with

Initialize

critic

central

parameter

network

with

Initialize

sequence

network

with

啄

Initialize

replay

buffer

M_DDPG

and

M_Seq

算法

SMARL

Initialize

actor

networks

and

critic

networks

with

兹

and

0,1

，

…

，

一

Initialize

target

actor

networks

and

target

critic

Set

episode

number

E_max

max

step

every

epi

sode

S_max

and

batch

size

B_DDPG

networks

with

兹忆

饮

忆

饮

0,1

，

…

，

一

210

模式识别与人工智能

（

&AI

）

第

卷

for

E_max

Seq

and

then

generate

collection

Train

the

sequence

network

data

for

S_max

Receive

individual-observation

every

agent

ddpg

=°

，

j,0j,1

j,N-1

Input

譽&

into

actor

networks

and

get

ddpg

i,0^j,1

，

…

，

,N-

for

Sample

random

minibatch

B_DDPG

transitions

（

，

厂诂

°诂+

）

from

M_DDPG

Compute

（

ib+1

，

滋

（

ib+1

Update

the

critic

network

for

agent

using

min

移

（

，

）

Update

the

actor

network

for

agent

using

抑

B_DDPG

移

（

o,a

m°d

100

then

兹

饮时

（

-子

）

兹

忆

饮

（

-子

）

；

兹

饮

色

（

子

）

兹

饮

（

子

）

兹

饮

T^N

（

子

）

兹

饮

（

）

摇

end

for

Receive

universal-observation

all

agents

=°

，

…

，

N-

Input

into

sequence

network

and

j,0

，

j,1

，

…

，

Execute

actions

dpg

Receive

new

observations

and

rewards

N-

Oj+

1,0

，

°j+

1,1

，

…

，

j+1,N-1

seq

，

j+1

1,0

1,1

，

…

，

,N-

Process

ddp

then

get

ssq

Store

transition

（

讐

dpg

dpd

）

DDPG

Store

transition

（

）

M_Seq

end

for

km°d

then

Select

（

：

）

same

Seq

and

max

set

The

core

formula

严

seq

■

N-

，

移

（

，

…

，

…

，

N_1

，

啄

）

摇

end

for

实验及结果分析

2.1

实验环境

为了验证算法的有效性

本文设定含有个性动

作的智能体合作的场景

在这类场景中

，

往往存在多

个同构智能体

，

这些智能体在不同情况下会变成具

有不同功能的角色个体

，

不同角色的智能体相互合

作

，

完成特定任务并获得奖励

本文设定并建立机械

手臂敲钉子的游戏场景作为典型实验环境

游戏规

则如下

）

游戏中存在多个机械手臂

每个机械手臂可

持有锤子或钉子

，

但同一时刻只能持有一种

即机械

手臂有

种状态:空手

、

持有锤子

、

持有钉子.

）

持有锤子的机械手臂可瞄准另一个机械手

臂

，

执行敲击动作

）

持有钉子的机械手臂可执行扶钉子动作

）

只有当持有锤子的机械手臂执行敲击动作

、

敲击的目标为持有钉子并执行扶钉子动作的机械手

臂时

，

才算成功完成一次合作

当执行步数达到事先

设定最大值时一局游戏结束

）

一次合作完成后

给予完成合作的两个机械

手臂奖励

将完成合作的机械手臂设置为空手状态

其它机械手臂的状态不变

）

在游戏中

，

每个时间步所有机械手臂均可执

行一个动作

，

总共有如下

种动作:休息

、

拿钉子

、

放

钉子

、

扶钉子

、

拿锤子

、

放锤子

、

敲击某目标.其中

，

当

机械手臂执行敲击动作时

需要同时确定敲击目标

和敲击动作.

在游戏场景中

，

机械手臂表示同构的智能体

，

休

息

、

拿钉子

、

放钉子

、

扶钉子

、

拿锤子

、

放锤子和敲击

表示智能体的共性动作

，

敲击的某目标表示智能体

的个性动作

，

游戏中任务的完成表示智能体间的

合作.

相类似的场景如下

第

期

史腾飞

等

序列多智能体强化学习算法

211

）

宠物店猫咪洗澡游戏

游戏中存在两种工具

奖励

）

持有钉子的智能体执行拿锤子

、

放锤子或敲

猫粮和毛刷

，

每个店员同个时刻只能持有一种工具.

持有猫粮的人可执行喂食动作

，

吸引猫咪注意力.持

有毛刷的人趁机完成对某只猫咪的洗澡任务.游戏

中智能体动作如下:休息

、

拿猫粮

、

拿毛刷

、

喂食

、

洗

刷某猫咪

、

放下猫粮

、

放下毛刷.

）

多人栽树游戏

游戏中存在

种物品

：

锄头

、

击的动作视为错误姿态变化

，

同样给予

0.01

分的

奖励

）

空手状态的智能体执行拿钉子或拿锤子动作

视为正确姿态变化

，

给予

0.001

分的奖励

本文使用算法的平均奖励作为算法性能的评估

指标

树苗

、

水壶

，

每人同个时刻只能持有一种物品.持有

锄头的人可以挖坑

，

当锄头离开时该坑洞会垮塌

（

土自动填埋回去

）

持有树苗的人可将树苗栽种进

在智能体规模动态变化的环境中

每种算法在

环境中总共进行

000

回合训练

每回合

256

步

，

智

某个坑洞中

持有水壶的人可以对某棵树苗进行浇

灌.游戏中智能体动作如下:休息

、

拿锄头

、

拿树苗

、

拿水壶

、

挖坑

、

栽种某个坑

、

浇灌某棵树苗

、

放下锄

头

、

放下树苗

、

放下水壶.

虽然上述游戏环境不同

但本质完全相同

2.2

实验设计

为了验证本文算法的适应性

、

性能和训练效率,

设计如下实验.

）

性能和适应性实验

对比本文算法和基线算

法在智能体规模动态变化环境中的运行效果

）

性能实验

对比本文算法和基线算法在智能

体规模不变的环境中的运行效果

）

算法性能稳定性和训练效率分析

对比本文

算法在

种情况下的表现

基线算法如下

：

典型单智能体强化学习算法

DDPG

、

典型多智能体强化学习算法

MADDPG

、

本文

简化后的

COMA-DNN

（

COMA

with

DNN

）

COMA

为

一种多智能体强化学习算法

，

算法内部使用

RNN

作

为

Actor

网络

考虑到本文实验环境较小

，

因此

Actor

网络使用深度神经网络

（

Deep

Neural

Network

DNN

）

替代

RNN.

为了保证公平性

所有算法均使用相同的超参

数

另夕卜

，

为

了保证

DDPG

、

MADDPG

、

COMA-DNN

可顺利运行

，

在智能体规模动态变化的环境中

，

使用

环境中智能体规模最大数量构建

种算法的网络

结构

2.3

环境奖励函数实验

本文对奖励函数做出如下设定

）

完成任务时

，

给予完成任务的智能体

分的

奖励

）

持有锤子的智能体敲击不成功或持有钉子的

智能体执行扶钉子但未被敲击

，

给予智能体

-0.2

分的奖励

）

持有锤子的智能体执行拿钉子

、

放钉子或扶

钉子的动作视为错误姿态变化

，

给予

0.01

分的

能体规模随回合的变化而变化

，

规模

mod

900

骔

300

夜

，

其中

0,1,

…

999,

表示当前回合数

，

即每

300

回合进行

次智能体规模变化

，

智能体规模依次为

2,3

,4.

每种算法在环境中独立训练

次

，

获得奖励

平均值如表

所示

表中最优均值使用黑体数字表

示

，

最小波动使用斜体数字表示

表

各算法获得的奖励平均值

Table

Mean

reward

different

algorithms

智能体

规模

DDPG

MADDPG

COMA-DNN

SMARL

智能体

170.

111.07

116.79

570

(土

113

)

(

444.

27)

(

467.

16)

(

142.

65)

智能体

390.

103.

126.57

445

(±

260.

26)

±413.8)

(

506.

26)

(土

111

)

智能体

585.

124.23

249.

788

(±390.61)

(

496.

93)

(

999.

36)

(土

197

)

智能体

173.71

8.9

500

（

动态变化

）

（

±115.8

）

(

43.

(土

)

(±125.14)

图

为

种算法在智能体规模不同时平均训练

奖励曲线

在智能体规模不变的环境中

，

每种算法在

智能体规模固定但不同环境中进行

000

回合训

练

每回合

256

步

各算法在环境中独立训练

次

(

智能体规模为

(

Agent

scale

set

212

模式识别与人工智能

(

PR&AI)

第

卷

♦MADDPG

SMARL

—

DDPG

COMA

DNN

一

—

SMARL

稳疋

从图

4(d)

和表

中可看出

，

在智能规模动态变

化的环境中

，

SMARL

的性能表现

(Reward)

分别是

DDPG

的

倍

、

MADDPG

的

倍和

COMA-DNN

的

倍

，

并且

SMARL

表现的波动相对较稳定

由于

MADDPG

和

COMA-DNN

在智能体规模动态变化的

环境中并未达到收敛

，

因此此处这两种算法的性能

是按照它们在环境中的最大奖励进行评估

综上所述

不论在智能体规模动态变化的环境

中

，

还是在智能体规模不变的环境中

，

SMARL

性能

回合数

x10

(b)

智能体规模为

(b)Agent

scale

set

(

智能体规模为

(

Agent

scale

set

—

MADDPG

COMA-DNN

—

DDPG

SMARL

1000

----------------------------------------

-200

----------

-----------

----------

--------

回合数

X10

(d)

智能体规模为

(

动态变化

)

(

Agent

scale

set

(

agent

scale

varying

dynamically)

图

智能体规模环境不同时各算法的平均训练奖励曲线

Fig. 4

Mean

training

reward

curves

each

algorithm

different

agent

scale

environments

实验结果见表

和图

4(a)

(c).

实验表明

，

在

智能体规模不变的环境中

SMARL

性能表现

(

Reward)

分别是

DDPG

的

倍

、

MADDPG

的

倍和

COMA-DNN

的

倍

，

并且

SMARL

表现的波动相对较

均最优

为了对比本文算法在两种环境中的性能稳定

性

将本文算法在智能体规模动态变化的环境中的

训练奖励按照智能体规模分类并单独抽出

使用插

入均值的方式将其补充为

000

回合的训练奖励曲

线

，

见图

4(a)

~(c)

中

SMARL-N

曲线

由图可看出

不论是在智能体规模动态变化的环境中还是在智能

体规模不变的环境中

，

相同规模时

,SMARL

均会收

敛到当前智能体规模下相同的最优解

另外

，

在同样的

000

回合下

,SMARL

得到可用

于

种智能体规模环境下的模型

，

其它算法仅可得

到用于一种智能体规模环境下的模型

因此

SMARL

在训练效率上优于基线算法

，

可节约训练

成本

综上所述

，

SMARL

在适应性

、性能及训练效率

上较优

2.4

有效性分析

Lillicrap

等

［

14］

通过一系列的实验指出

：

DDPG

可实现稳步学习

；

DDPG

在实验中比深度

网络

(

Deep

Networks

DQN)

更快找到问题的解

SMARL

中

，

智能体动作网络内部使用相互独立的

DDPG

网络

，

不同

DDPG

网络的输入向量

、

输出向量

的维度含义相同

，

因此训练过程可看作是同个

DDPG

网络在相同环境下的多次训练

，

即

DDPG

是

SMARL

中智能体动作网络的核心

,DDPG

的稳定学

习性质在一定程度上保证

SMARL

中智能体动作网

络的稳步学习和较好性能

Seq2Seq

［

15-16］

可学习从一个任意长度的序列到

另一个任意长度序列的映射

在

SMARL

中

,Seq2Seq

是智能体目标网络的核心

，

鉴于

Seq2Seq

可实现任

意长度的序列到序列映射

,SMARL

将智能体规模大

小视作序列长度

,Seq2Seq

可用于建模所有智能体

的观测到动作目标的映射

因此

,SMARL

的智能体

目标网络可较好地实现从智能体观测到智能体目标

映射的学习

第

期

史腾飞等

序列多智能体强化学习算法

doi

10.

1.1.721.6452

&rep

二

repl&type

二

pdf.

213

基于

DDPG

的动作网络和基于

Seq2Seq

的目标

网络构成

SMARL

的要件

稳步的学习性和良好的性

[10

]

MNIH

BADIA

MIRZA

al.

Asynchronous

Methods

for

Deep

Reinforcement

Learning

Proc

the

International

能在一定程度上保证本文算法的有效性

•

实验结果

Conference

Machine

Learning.

New

York,

USA:

ACM,

2016:

表明算法的有效性

1928-1937.

[11]

KHAN

ZHANG

LEE

al.

Scalable

Centralized

Deep

结束语

本文研究智能体规模对强化学习算法的影响

，

Multi-agent

Reinforcement

Learning

via

Policy

Gradients

[

C/OL]

[2020-09-25

]

https

；

//arxiv.

org/pd

》

1805.08776.

pdf.

[12]

ZHANG

PAN

YANG

Scalable

Deep

Multi

agent

Reinforcement

Learning

via

Observation

Embedding

and

提出序列多智能体强化算法

(

SMARL).

实验证实

，

rameter

Noise.

IEEE

Access

2019

54615

-54622.

本文算法对智能体规模动态变化具有较好的适应

性

，

在学习效率和算法性能上均较优

•

本文算法虽然

可自动适应智能体规模的动态变化

但在算法训练

阶段仍需要一个短期的智能体规模不变的环境进行

数据收集

•

因此

，

进一步提升算法对智能体规模动态

变化环境的适应性和促进智能体间合作是今后的研

究方向

参考文献

[1]

SHOHAM

POWERS

GRENAGER

Multi-agent

Reinforce

ment

Learning:

Critical

Survey

[

C^OL

]

[2020-09-25].

https

；

www.

cc.

gatech.

edu/classes/AY2008/cs7641

spring/handouts/

MALearning_ACriticalSurvey_2003

_05

16.

pdf.

[2]

VINYALS

BABUSCHKIN

CZARNECKI

Grand

master

Level

StarCraft

Using

Multi-agent

Reinforcement

Lear

ning.

Nature

2019,

575(7782)

350-354.

[3]

MOHSENI-KABIR

ISELE

FUJIMURA

Interaction-Aware

Multi

-agent

Reinforcement

Learning

for

Mobile

Agents

with

Indivi

dual

Goals

Proc

the

International

Conference

Robotics

and

Automation.

Washington

USA:

IEEE,

2019

3370-3376.

[4]

ZHANG

FENG

LIU

Cityflow:

Multi-agent

Reinforcement

Learning

Environment

for

Large

Scale

City

Traffic

Scenario

Proc

the

World

Wide

Web

Conference

Berlin

Ger

many

Springer

2019

3620-3624.

[5]

LOWE

TAMAR

al.

Multi-agent

Actor-Critic

for

Mixed

Cooperative-Competitive

Environments

Proc

the

ternational

Conference

Neural

Information

Processing

Systems.

Cambridge

USA:

The

MIT

Press

2017:

6382-6393.

[6]

FOERSTER J

FARQUHAR

AFOURAS

Counterfac

tual

Multi-agent

Policy

Gradients

[

C/OL]

[2020-09-25

]

https

arxiv.

org/pdf/1705

.08926.

pdf.

[7]

WEI

WICKE

FREELAN

al.

Multiagent

Soft

Q-Learning

[

C/OL]

[2020-09-25

https

//arxiv

org/pd^1804.09817v1.

pdf.

[8]

BRYS

HARUTYUNYAN

TAYLOR

Policy

Trans

fer

Using

Reward

Shaping

Proc

the

International

Conference

Autonomous

Agents

and

Multiagent

Systems.

New

York

USA

ACM,

2015:

181-188.

[9]

TAYLOR

DUPARIC

GALVAN-LOPEZ

al.

Transfer

Learning

Multi-agent

Systems

through

Parallel

Transfer

[

C/OL]

[2020-09-25

]

http

///

viewdoc/down

load?

[13

]

LONG

ZHOU

GUPTA

Evolutionary

Population

Curriculum

for

Scaling

Multi-agent

Reinforcement

Learning

[

OL]

[2020-09-25

https

//arxiv

org/pdf/2003

10423.

pdf.

[14]

LILLICRAP

HUNT

PRITZEL

Continuous

Con

trol

with

Deep

Reinforcement

Learning

[

C/OL]

[2020-09-25

arxiv

org/pd

》

1509.

02971

pdf.

[15]

SUTSKEVER

VINYALS

Sequence

Learning

with

Neural

Networks

Proc

the

27th

International

Conference

Neural

Information

Processing

Systems.

Cambridge,

USA:

The

MIT

Press,

2014:

3104-3112.

[16]

CHO

VAN

MERRIENBOER

GULCEHRE

Lear

ning

Phrase

Representations

Using

RNN

Encoder-Decoder

for

Sta

tistical

Machine

Translation

Proc

the

Conference

Empirical

Methods

Natural

Language

Processing.

Stroudsburg,

USA:

ACL,

2014:

1724-1734.

[17]

LUONG

PHAM

MANNING

Effective

Approaches

Attention-Based

Neural

Machine

Translation

Proc

the

Confe

rence

Empirical

Methods

Natural

Language

Processing.

Stroudsburg,

USA:

ACL,

2015:

1412-1421.

作者简介

史腾飞

，

硕士研究生

，

主要研究方向为强化

学习

E-mail:373321502@

qq.

com.

(

SHI

Tengfei

master

student.

His

research

interests

include

reinforcement

learning.

)

王莉

（

通信作者

）

，

博士

，

教授

，

主要研究方

向为人工智能

、

机器学习

E-mail:

wangli@

tyut.

edu.

cn.

(

WANG

(

Corresponding

author

)

Ph.

professor.

Her

research

interests

include

arti

ficial

intelligence

and

machine

learning.

)

黄子蓉

，

硕士研究生

，

主要研究方向为强化

学习

E-mail

：

453774012@

qq.

com.

(

HUANG

Zirong

master

student.

Her

interests

include

reinforcement

lear

ning.

)

发布者：admin，转转请注明出处：http://www.yc00.com/web/1713747340a2310496.html

智能网络动作规模算法

admin

网站建设
【愚公系列】《Python网络爬虫从入门到精通》002-了解Web前端
标题详情作者简介愚公搬代码头衔华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专
admin
2月前
90
网站建设
【Linux】无法连接网络的情况及解决方案
一、无法连接网络的情况及解决方案 1.网络连接未启用【问题】开关未打开【解决办法】需要以命令行形式打开此功能 ：编辑网卡配置文件 #进入网卡配置文件所在的路径 ifcfg-ens33即为网卡配置文件
admin
2月前
50
网站建设
网络正常连接，浏览器没网
网络正常连接，浏览器没网，但是QQ、微信正常登录。造成这个原因基本是没有关闭VPN就关机电脑，导致代理出问题。重启加速器VPN 再关闭即可，不
admin
2月前
30
网站建设
wifi服务器延迟高,网络延时高(网络延迟高怎么办（家里WIFI延迟高，教你几招搞定网络延迟）)...
网络延时高(网络延迟高怎么办(家里WIFI延迟高，教你几招搞定网络延迟))，哪吒游戏网给大家带来详细的网络延时高(网络延迟高怎么办(家里WIFI延迟高，教你几招搞定网络延迟)
admin
2月前
90
网站建设
电视打开显示本网络无电视服务器,当贝市场教你网络机顶盒显示无信号怎么办？...
原标题：当贝市场教你网络机顶盒显示无信号怎么办？ 最近发现很多网友反映家里的机顶盒在使用的时候突然提示没信号，现在楼主来告诉大家，网络机顶盒在使用的时候
admin
2月前
30
网站建设
基于STM32+ESP8266+手机 APP+阿里云的智能小车设计与实现（系统资料）
基于STM32+ESP8266+手机APP+阿里云的智能小车设计与实现摘要：本研究旨在设计一款高度智能化的智能小车系统，通过集成 STM32 微控制器、ESP8266 无线模块、手机 APP 以及阿里云平台，实现环境数据实时采集、远程精
admin
2月前
90
网站建设
天汇企业网络的设计与实现
系统简介互联网技术与通信技术的相互带动作用，使得两者皆呈现多样化的快速发展趋势，5G的时代序幕在已经逐渐开启，由此引发的互联网技术和设备变革必然是各界人士关注的重点&am
admin
2月前
70
网站建设
linux如何实现ping外网连接网络（笔记本wifi虚拟机连接网络？）
在使用虚拟机时，连接外网是一个常见的需求。本文将详细介绍如何通过桥接模式配置虚拟机，使其能够连接外网。以下是具体步骤： 1. 检查网络适配器首先，
admin
2月前
100
网站建设
解决Windows 11网络连接问题：教你轻松排查网络故障
如何解决Windows 11网络连接问题让我们先进行一些基本检查。点击开始菜单，进入设置。点击网络和互联网，然后点击“高级网络设置”。使用 Windows 提供的系统疑难解答来帮助解决问题。现在
admin
2月前
110
网站建设
电脑更新后无法连接网络怎么解决网络恢复方法
电脑更新后无法连接网络是很多用户常遇到的问题，尤其是在Windows系统中。无论是操作系统更新还是驱动程序更新，都可能导致网络连接异常。当电脑更新后无法连接网络时，可以尝试以
admin
1月前
120
网站建设
重装系统后ip地址错误，网络无法接通怎么办
在数字化时代，电脑已成为我们生活和工作中不可或缺的工具。然而，有时候我们会遇到一些技术问题，比如重装系统后发现IP地址错误，导致网络无法接通。这个问题看
admin
1月前
100
网站建设
计算机毕业设计SpringBoot+Vue.js协同过滤算法东北特产销售系统(源码+文档+PPT+讲解)
温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示&#xf
admin
1月前
120
网站建设
智能电表跳闸怎么办？如何恢复供电
现在新建的小区安装的基本都是智能电表，他的好处就是足不出户，就可以手机交费，但如果你忘记充值，电表欠费会自动停电。那么如果停电了以后&#xff0
admin
1月前
70
网站建设
计算机网络名怎么解决,指定的网络名不再可用怎么办解决教程
如果你在访问网上邻居的时候，或者访问网络打印机的时候出现提示指定的网络名不再可用，那么就根本无法使用网络，这时候要怎么办呢？怎么解决这个问题呢&
admin
1月前
60
网站建设
操作系统实验之银行家算法模拟
操作系统实验之银行家算法模拟银行家算法中的数据结构可利用资源向量 AvailableAvailable[i] 表示第 i 种资源可利用的数目最大需求矩阵 MaxMax[i][j] 表示第 i 个进程最多需要的第 j 类资源的数
admin
1月前
60
网站建设
利用银行家算法避免死锁（C语言实现）
利用银行家算法避免死锁【注】本代码数据及思路方法参考自《计算机操作系统（第四版）》汤小丹等编著的教材。 #include <iostream>#define m 3资
admin
1月前
20
网站建设
推荐系统之基于用户的协同过滤算法（UserCF）
从寒假开始接触推荐系统，前期也花了一定的时间去学习了一下python，推荐系统的书籍看的是比较出名的《推荐系统实践》项亮编著。写篇博客，以供日后的学习或使用。转载请注明出
admin
1月前
90
网站建设
【操作系统--页面置换算法】C语言详解--大作业版（附代码）
一、实验目的 1设计和实现FIFO,LRU,OPT和CLOCK算法 2设计和实现一个完整的可供选择不同算法的程序 3通过页面访问序列随机发生器实现对上述算法的测试及性能比较 4领略页面置换背后的资源调配思想，并
admin
1月前
70
网站建设
银证转账时遇到网络问题怎么办？详细操作步骤及注意事项
Python股票接口实现查询账户，提交订单，自动交易（1） Python股票程序交易接口查账，提交订单，自动
admin
1月前
60
网站建设
【JavaEE】网络原理详解
1.❤️❤️前言~🥳🎉🎉🎉 Hello, Hello~ 亲爱的朋友们👋👋，
admin
1月前
70

发表回复

评论列表（0条）

暂无评论

序列多智能体强化学习算法

发表回复

评论列表（0条）

联系我们

400-800-8888

序列多智能体强化学习算法

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888