2024年4月24日发(作者:)
第38卷第4期
2021年4月
计算机应用与软件
ComputerApplicationsandSoftware
Vol38No.4
Apr.2021
基于DDPG算法的海上无人救援技术研究
,2
郑 帅
1
贾宝柱
1
张昆阳
1
张 程
1
1
(大连海事大学轮机工程学院 辽宁大连116026)
2
(广东海洋大学海运学院 广东湛江524088)
摘 要 针对海上无人救援过程中遇险目标的漂移及如何快速靠近的问题,提出一种基于深度强化学习理论
的目标追踪算法,使无人搜救船在与环境交互的过程中学习到自主驾驶追踪漂移遇险目标的最优驾驶决策。在
SART的辅助下,通过自主学习能够使搜救船以最短的时间追踪到漂移遇险目标。在Gazebo物理仿真器中建立
三维仿真环境,基于ROS系统分别设计直线漂移轨迹和不规则漂移轨迹仿真实验,通过多次自主学习训练,验证
所提方法的有效性。
关键词 深度强化学习 无人船 海上救援 目标追踪
中图分类号 TP249 文献标志码 A DOI:10.3969/j.issn.1000386x.2021.04.026
MARINEUNMANNEDRESCUETECHNOLOGYBASED
ONDDPGALGORITHM
11,211
ZhengShuai JiaBaozhu ZhangKunyang ZhangCheng
1
(MarineEngineeringCollege,DalianMaritimeUniversity,Dalian116026,Liaoning,China)
(CollegeofMaritime,GuangdongOceanUniversity,Zhanjiang524088,Guangdong,China)
2
Abstract Aimingattheproblemofdriftingdistresstargetandthewayofapproachingquicklyintheprocessof
unmannedrescueatsea,atargettrackingalgorithmbasedontheoryofdeepreinforcementlearningisproposed,which
makesunmannedrescuevessellearntoautonomousdrivingtotrackdrifttargetoptimaldecisionduringtheinteraction
withenvironment.WiththeassistanceofSART,thevesselgotclosetothedriftdistresstargetinshortesttimethrough
selflearning.AthreedimensionalsimulationenvironmentwasestablishedintheGazebophysicssimulator.The
simulationexperimentsoflineardrifttrajectoryandirregulardrifttrajectoryweredesignedrespectivelybasedonROS.
Theeffectivenessoftheproposedmethodisverifiedthroughmultipleindependentlearningandtraining.
Keywords Deepreinforcementlearning Unmannedsurfacevehicle Maritimerescue Targettracking
2]
0℃海水中最长存活时间仅为12分钟
[
,即使遇险人
0 引 言
海上应急救援往往受海况恶劣、时间紧迫等因素
限制,救援成功的关键在于遇险目标位置的确定和如
何快速靠近遇险目标。海上遇险目标会随着风、浪、流
的作用而发生漂移,由于各种海洋漂浮物的受风面积
与水下面积不尽相同,即使在同一风场与流场中,落水
1]
。相关研究表明,落水人员物的漂移轨迹也不相同
[
员能够利用救生艇、筏等延长存活时间,但也受到淡
水、食物等补给限制。
目前,海上救援主要依靠人工的经验驾驶船舶应
对海上多变的复杂环境追踪遇险目标,但是海上环境
恶劣,使执行救援任务时有较高的安全风险。随着船
舶无人驾驶技术的发展,海上无人救援研究受到了广
3]
泛重视
[
。
针对遇险目标位置漂移问题,多数研究采用了预
4]
结合风场和测遇险目标漂移轨迹的办法。旷芳芳等
[
在20℃海水中最长存活时间为16小时20分钟,而在
2019-09-17。国家自然科学基金项目(51479017,52071090)。郑帅,硕士生,主研领域:轮机工程。贾宝柱,教授。收稿日期:
张昆阳,硕士生。张程,硕士生。
160 计算机应用与软件
换关系为:
osin
φ
-s
φ
0
c
J()=
η
osin
φ
-c
φ
0
s
0
01
(3)
2021年
流场的数值模拟,给出了落水人员和救生筏的风致漂
移系数,用于预测落水人员以及救生筏的实时位置。
5]
基于MMG模型研究了风、浪、流的作用下刘同木等
[
6]
船舶的漂移数学模型。Gao等
[
通过蒙特卡洛方法在
疑似马航370航班遇难海域对其残骸的漂移轨迹进行
预测。漂移模型预测方法的不足在于无法找到一个通
用的预测模型对不同漂移目标的位置进行预测。同
时,已有的多数研究工作仅仅关注预测方法准确度,却
没有考虑遇险目标的快速追踪及靠近的问题。根据
1.2 状态空间设计
为追踪到不同的遇险目标,使算法具有一定的泛
化性,搜救船的环境模型需要考虑遇险目标的位置,得
到遇险目标与搜救船的相对位置关系,这种关系包括
以及船舶的首向与二者连线方向的二者之间的距离d
SOLAS公约规定,每艘救生艇、筏要求至少配备一台
搜救雷达应答器(SearchandRescueRadarTranspon
der,SART),用来近距离确定遇难船舶、救生艇、救生
筏,以及幸存者位置
[7]
。因此,实际救援场景中更可靠
的是根据SART所提供的实时目标位置信号开展
营救。
当遇险目标的位置已知,就要考虑如何快速靠近
遇险目标的问题。Park等
[8]
基于视觉的估计和制导
方法,控制无人机追踪移动目标。李静等
[9]
提出交通
道路网络环境下的局部搜索树移动目标追踪算法。
Woo等
[10]
设计了强化学习控制器,使无人船具备了自
主路径跟踪的能力。本文尝试将DDPG深度强化学习
算法应用于海上无人救援,结合SART所提供遇险目
标位置信号,设计了基于机器人操作系统
[11]
(Robot
OperatingSystem,ROS)仿真实验平台。在Gazebo物理
仿真器中模拟水文环境以及船舶的运动特性,使搜救
无人船在感知环境信息的同时,通过对不同漂移轨迹
的落水物进行追踪实验,训练其追踪漂移遇险目标的
能力。
1 目标跟踪算法设计
1.1 船舶运动模型
一般情况下,船舶运动研究通常只考虑三个自由
度的运动,通过Gazebo插件实现双体船操纵的非线性
运动学模型,船舶操纵公式
[12]
如下:
Mv+C(v)v+D(v)v=
τ
+
τ
env
(1)
η
=J(
η
)v(2)
式中:M是惯性矩阵;C(v)是科里奥利矩阵;D(v)是
阻尼矩阵;
τ
是推进系统产生的力和力矩向量;
τ
env
是
通过Gazebo插件模拟的风、浪、流干扰力;向量
η
描述
了惯性参考系北(N)、东(E)中的位置和绕Z轴的转
首角度
φ
;
η
=[x,y,
φ
]
T
和向量v包含船体固定坐标
系中的船体的纵向速度u、横向速度v和转首角速度r,
即v=[u,v,r]
T
。船体坐标系到惯性坐标系的坐标转
夹角
φ
,环境模型状态如图1所示,定义状态s为:
s=[d,
φ
]
T
(4)
图1 状态示意图
当搜救船捕获到SART反射的雷达信号,在雷达
屏幕上形成12个一连串的光点,这种显示方式用来区
别于其他雷达回波信号,其中最靠近雷达中心点的光
点便是遇险目标的位置(x
t
,y
t
)。另外,通过船舶运动
模型计算我们船的位置信息(x
v
,y
v
),可以计算出二者
之间的距离d。
d=
槡
(t
t
-y
v
)
2
+(x
t
-x
v
)
2
(5)
φ
=
φ
1
-
φ
2
(-180<
φ
,
φ
1
,
φ
2
≤
180);
φ
1
通过模
型计算得出,其为首向角,即船首方向与正北方向的夹
角;
φ
2
为遇险目标和搜救船的相对方位,即二者连线
与正北方向的夹角。
φ
2
=arctan((x
t
-x
v
)/(y
t
-y
v
))(6)
1.3 动作空间设计
对环境状态的改变依赖于智能体通过驱动装置使
船舶发生运动,双体船通过电机指令驱动两个螺旋桨
产生差速推力来驱动搜救船移动。动作空间由一组电
机指令组成,指令发布时间间隔为1s,定义动作空间a
为:
a={[m+n,m-n]
T
|m
∈
[-0.5,0.5],n
∈
[-0.5,0.5]}
(7)
式中:m表示双体船的双桨转速值;n表示左右螺旋桨
差动值。参考文献[12]中的系柱实验得出的单浆推力
与电机指令之间映射关系,得到搜救船的驱动力
τ
,根
据船舶操纵模型以及坐标转换公式可以计算出当前指
令执行后船舶的位置姿态。
第4期 郑帅,等:基于DDPG算法的海上无人救援技术研究 161
1.4 奖励函数设计
由于救援任务具有时间相关性,所以奖励函数的
设计需要考虑时间与距离因素。奖励函数用r
t
表示。
r
2
t
=
-
{
2-0.01×t d小于救援任务成功条件
搜救船触及搜救范围边界
(8)
(d)+
ζ
() 其他
ξφ
t
-d
t-1t
-
φ
t-1
图2 样本采集过程
式中:t表示时间环境反馈奖励值为(2-0.01×t),设
计成为时间相关函数,目的是引导搜救船用尽量短的
算法具体流程如下:
时间完成追踪任务;d
t
表示当前采样获得的搜救船与
遇险目标的距离;d
t-1
表示上一次采样的距离。将上一
次的距离与当前的距离做差,如果当前距离比上次距
离短,差值为正,反之为负,
φ
角同理,这种设计目的是
引导搜救船朝着遇险目标的方向逐渐靠近,获得相对
较高的奖励值。
2 DDPG算法
环境观测值与动作值由深度确定性策略梯度下降
(DeepDeterministicPolicyGradient,DDPG)
[13]
算法进
行处理。DDPG算法需要两套神经网络,分别为主网
络与目标网络。每套网络都由一个Actor(演员)网络
与一个Critic(评论家)网络构成。两套网络的网络结
构完全相同,只是参数不同。
该算法是在梯度下降法的基础上,对ActorCritic
算法进行改进,将输出动作选择概率转变为输出确定
动作值的强化学习算法,这个确定性的zs915121动作
是随机策略梯度的极限值。ActorCritic算法框架由两
个网络构成,包含了以求解值函数为核心的Critic网
络,还有以策略为核心的Actor网络。其中Actor网络
的输入为状态矩阵,输出确定的动作值a
t
,而Critic网
络的输入为动作值a
t
与状态值s
t
,输出动作的Q值,Q
值对当前回合的一系列动作策略做出评价,因此,训练
该网络的过程是判断动作策略优劣的学习过程,通过
训练,得出Q值最大的一系列动作策略。
每一步采集的样本(s
t
,a
t
,r,s
t+1
)输入到主网络
中训练,采样过程如图2所示,同时开辟一个记忆库来
存储采样的结果,目标网络则随机抽取记忆库中的数
据作为输入,记忆库的数据不断更新,切断了样本数据
间的相关性。主网络的参数通过回合更新的方式,若
干回合后,将主网络参数赋值给目标网络,进行目标网
络的参数更新。
(1)构建Actor网络与Critic网络,主网络参数分
别为
θ
μ
、
θ
Q
,并进行随机初始化。Critic网络得到的Q值
为Q(s,a|
θ
Q
),Actor网络得到状态到动作的映射
μ
(s
|
θ
μ
)。
(2)通过网络参数
θ
μ
、
θ
Q
来初始化所要求解的目
标网络的参数
θ
μ
′
、
θ
Q′
,同时开辟一个记忆库存储空间。
(3)初始化状态s
1
,通过主网络加上高斯扰动N
t
,
从动作库中选择一个动作a
t
进行探索:
a
t
=u(s|
θ
μ
)+N
t
(9)
(4)执行该动作,得到相应的奖励r
t
和下一个状
态s
t+1
,并且形成元组(s
t
,a
t
,r
t
,s
t+1
),作为一条采样值
存到记忆库存储空间中。
(5)通过当前网络Q(s,a|
θ
Q
)进行估计,同时从
记忆库中选取一小批元组数据,通过Bellman方程对Q
值进行估计,估计结果表示为:
q(a
i
)=r
i
+
γ
Q(s
μ
′Q′
i+1
,
μ
(s
t+1
|
θ
)|
θ
)(10)
式中:
γ
表示折扣率,反映未来估计的奖励对当前决策
的影响程度,如果
γ
=0,则不考虑未来任何价值;如果
γ
=1,则未来的价值不会随时间衰减。
将计算出的两个值做差,得到损失函数TD_error。
然后使用梯度下降法对Critic网络的参数进行更新。
(6)主要采取策略梯度的方式进行Actor网络的
更新,即:
θ
J(
θ
)
≈
1
μ
N
∑
a
Q(s,a|
θ
Q
)|
s=s,a=(s)
i
i
μ
i
×
θ
μ
μ
(s|
θ
μ
)|
s
i
(11)
在得到策略梯度后,通过最大化期望奖励的方式对总
奖励进行梯度上升更新参数。
(7)若干回合后,将主网络的参数赋值给目标网
络,对目标网络参数更新。
{
θ
Q′
←
κθ
Q
+(1-
κ
)
θ
Q′
θ
μ
′
←
κθ
μ
+(1-
κ
)
θ
μ
′
(12)
算法结构如图3所示。
162 计算机应用与软件2021年
要一定的时间,设置样本采集的时间间隔为1s。记忆
库的容积为10000,批数据的容量为64。奖励函数的
系数为
ξ
,均为1,目标网络更新参数
κ
为0.01。
ζ
3.2 实验设计及结果分析
3.2.1 直线轨迹目标追踪
从图5中可以看出,实验初期(前200回合),由于
图3 DDPG算法结构图
使用TensorFlow搭建Actor网络和Critic网络,
Actor网络的输入为状态矩阵,网络结构有两个隐藏
层,每个隐藏层的节点分别为400、300,输出动作矩
阵。将状态矩阵输入到Critic网络中,该网络第二层
有400个节点,第三层有300个节点。动作矩阵也输
入到Critic网络,第二层有300个神经元节点,并将状
态空间矩阵输入的网络的第三层神经元与动作矩阵输
入的网络的第二层神经元节点合并进行线性变换,输
入到第四层网络神经元节点上,该层共有300个神经
元节点,最后输出动作的Q值。网络的所有神经元节
点之间的连接方式均为全连接方式,网络结构图如图
4所示。
图4 ActorCritic网络结构图
3 实 验
3.1 实验平台
实验设计基于ROS,在Gazebo物理仿真器中创建
三维实验环境与智能体,模拟海上救援场景,设定环境
场景边界为50×50的范围,初始状态下搜救船位于
(0,0)的位置,并在环境扰动的干扰下运动,遇险目标
位于(20,10)的位置。当搜救船与遇险目标的距离小
于5时,视为满足成功救援的条件。Actor网络的学习
率为0.0001,Critic网络的学习率为0.001,折扣因子
为0.99。每次实验的总回合数为1000,每个回合最
多采集200个样本数据,由于搜救船执行电机指令需
探索的概率比较大,这一阶段搜救船在探索环境,采集
环境样本数据,很难准确追踪到遇险目标,平均Q值
Q
a
也较低,只有少数成功的情况,Q值较高。从图6中
可以看出,这一阶段用时都相对较长。实验中期
(200~500回合),随着样本数量的累积,逐渐建立起
了奖励函数与动作策略之间的联系,搜救船从探索环
境知识逐渐转为利用环境知识,逐渐可以追踪到遇险
目标,算法快速收敛,但是会走一些弯路。随着训练的
不断深入,搜救船会不断地调整自己的运动趋势,以最
短的时间靠近遇险目标,最终Q
a
稳定在10,平均时长
t
a
稳定在70s。从Q值以及时间的变化趋势来看,算
法符合救援过程中时间紧迫性的要求。
图5
Q值以及平均Q值(Q
a
)
变化曲线一
图6 回合时长以及平均时长
(t
a
)
变化曲线一
从三个阶段中选取第105回合、第263回合、第
634回合,以及第975回合训练过程进行分析,如图7
所示,分别对应(a)、(b)、(c)、(d)的四幅轨迹图,其
中虚线轨迹为搜救船的运动轨迹,实线轨迹为遇险目
标的漂移轨迹。可以看出只有第105回合训练失败,
结合图5可以看出,奖励值最低,其他三个回合均成功
追踪到了遇险目标。随着训练深入,第263、第634、第
975回合搜救船的轨迹渐短,Q值越高,结合图6可以
看出所用的时间也越来越短。
第4期 郑帅,等:基于DDPG算法的海上无人救援技术研究 163
图7 搜救船及遇险目标运动轨迹一
在Gazebo仿真环境中可以观察到以上四个回合
结束时搜救船与遇险目标的相对位置如图8所示,其
中黑色的圆点为回合结束时遇险目标的位置。
图8 回合结束时Gazebo场景一
由图9可以直观地看出上述四个回合的样本的实
时奖励值变化趋势。第105回合(曲线a)奖励值多数
情况下是负数,表明搜救船一直在远离遇险目标,因此
Q值比较低,为-21。而第975回合(曲线d)则每一
个动作都是在靠近遇险目标,因此奖励值很高,高达
20.4。其他两个回合(曲线b和曲线c)均有正有负,
表明追踪过程有远离的情况,这两个过程中的动作策
略不是最优的策略。从图7的轨迹图中也可以看出这
一点,证明奖励函数的设计可以引导搜救船快速追踪
到救援目标,是有效的。
图9 单个回合奖励值随时间的变化曲线对比一
3.2.2 不规则轨迹目标追踪
由于不同落水物体在海上的轨迹不同,为证明算
法的有效性,补充了不规则轨迹落水物的追踪实验。
从图10中可以看出与直线轨迹追踪实验结果相似,随
着环境状态样本采样数量的增加,搜救船由探索环境
转变为利用环境知识,从第200回合开始算法逐渐收
敛;平均Q值(Q
a
)逐渐增加,最终稳定在15左右。从
图11中可以看出完成任务所需的平均时间(t
a
)逐渐
减少,用时较少的回合可达28s。由此可见,尽管不同
的遇险目标漂移的轨迹不同,甚至轨迹变得不规则,搜
救船仍然可以通过DDPG算法达到快速追踪到遇险目
标的目的,算法仍能够收敛。
图10
Q值以及平均Q值(Q
a
)
变化曲线二
图11 回合时长以及平均时长
(t
a
)
变化曲线二
选择第50、第330、第840、第915回合,运动轨迹
分别如图12(a)、(b)、(c)、(d)所示,同样虚线轨迹为
搜救船的运动轨迹,实线轨迹为遇险目标的漂移轨迹。
第50回合中搜救船没有能够追踪到遇险目标,而第
330、第840、第915回合均完成了对遇险目标的追踪任
务,并且第915回合的轨迹是最短的,用时最少,Q值
也是最高的。
164 计算机应用与软件2021年
4 结 语
在海上无人救援过程中,针对遇险目标漂移问题,
本文提出一种基于DDPG算法的目标追踪方法,本文
所做的研究工作及相应结论可为实船实验提供参考。
主要结论如下:
(1)分析了强化学习算法应用于海上无人救援情
图12 搜救船及遇险目标运动轨迹二
上述四个回合在回合结束时,Gazebo中显示的相
对位置如图13所示,黑点表示回合结束时遇险目标的
位置。
图13 回合结束时Gazebo场景二
通过对以上四个回合中的每一次采样获得的奖励
值变化进行分析,如图14所示。从曲线e可以看出,
算法未建立起奖励函数与动作策略之间的关系,与遇
险目标的距离时远时近,曲线在0附近波动。而曲线
g和曲线h表示在这两个回合中每次采样的奖励值大
多位于0.5以上,表明搜救船与遇险目标正在快速靠
近,再一次说明奖励函数的设计是有效的。
图14 单个回合奖励值随时间的变化曲线对比二
景的技术难点,在未知遇险目标的漂移模型情况下,当
获取遇险目标与自身相对位置时,算法可以使搜救船
自主做出恰当的操纵决策,以较短的时间靠近遇险目
标,通过直线漂移轨迹的遇险目标追踪实验和不规则
漂移轨迹的遇险目标追踪仿真实验得以验证。
(2)将强化学习算法与海上实际救援情况相结
合,设计状态、动作空间、相应的奖励函数,奖励函数的
设计考虑了时间因素与距离因素。经过仿真实验验
证,奖励函数能够引导无人搜救船快速地追踪到遇险
目标,并且具有一定的泛化性,符合海上搜救时间紧迫
性的要求以及目标追踪距离逐渐缩短的要求。
参考文献
[1]钟铭.国家海上搜救手册[M].大连:大连海事大学出版
社,2011.
[2]黄敏东.论海上遇险黄金救援时间[J].世界海运,2014,
37(11):33-35.
[3]宋杰,闻佳.无人船技术在海事的应用[J].中国海事,
2015(10):47-50.
[4]旷芳芳,靖春生,张俊鹏.基于观测和模型的风致漂移系
数研究[J].应用海洋学学报,2017,36(1):41-48.
[5]刘同木,刘在科,余建星,等.船舶漂移运动轨迹模型及其
实船试验验证[J].船舶力学,2018,22(11):1315-1322.
[6]GaoJ,MuL,BaoX,etal.DriftanalysisofMH370debrisin
thesouthernindianocean[J].FrontiersofEarthScience,
2018,12(3):468-480.
[7]周华峰,王佐良.一次救助经历和体会[J].航海技术,
2003(4):14.
[8]ParkS,JungD.Visionbasedtrackingofagroundmoving
targetwithUAV[J].InternationalJournalofAeronautical
andSpaceSciences,2019,(2):467-482.
[9]李静,王楠,许铜华,等.基于局部搜索树的UAV与UGS
协同移动目标追踪方法[J].电光与控制,2019,26(1):
1-7.
[10]WooJ,YuC,KimN.Deepreinforcementlearningbasedcon
trollerforpathfollowingofanunmannedsurfacevehicle[J].
OceanEngineering,2019,183:155-166.
(下转第255页)
第4期 王维美,等:基于卷积神经网络的知识图谱补全方法研究 255
(2)本文方法可以对普通知识图谱和领域性知识
图谱进行补全,同时也可以应用到查询系统,比如建模
三元组(查询,用户,文档),通过查找三元组中缺失的
实体或关系,将缺失的实体或关系以三元组的形式添
加到数据库中,从而对数据库进行补全扩充。
另外,针对得到的实体或关系与已有实体关系存
在不相容或冲突问题:使用本文方法判断不同三元组
得分,利用分数判断三元组正确性;使用实体或关系对
齐模型来判断不同三元组的正确性,若三元组正确,则
[C]//53rdAnnualMeetingofthe
dynamicmappingmatrix
ACL.ACL,2015:687-696.
[11]刘知远,孙茂松,林衍凯,等.知识表示学习研究进展
J].计算机研究与发展,2016,53(2):247-261.[
[12]林海伦,王元卓,贾岩涛,等.面向网络大数据的知识融
J].计算机学报,2017(1):3-29.合方法综述[
[13]SocherR,ChenDQ,ManningCD,etal.Reasoningwith
neuraltensornetworksforknowledgebasecompletion[C]//
Proceedingsofthe26thInternationalConferenceonNeural
InformationProcessingSystems.ACM,2013:926-934.
在知识图谱中可以共存,比如:姚明亦指大姚(别名)。
为提高三元组补全正确率,今后的研究将尝试修
改卷积神经网络内部架构,对三元组特征提取作更深
入的研究;将实体和关系的描述文本融入到卷积神经
网络中,作为算法的输入。
参考文献
[1]丁建辉,贾维嘉.知识图谱补全算法综述[J].信息通信
技术,2018(1):56-62.
[2]谢刚.知识图谱精化研究综述[J].电子技术应用,2018,
44(9):29-33,38.
[3]刘峤,李杨,杨段宏,等.知识图谱构建技术综述[J].计
算机研究与发展,2016,53(3):582-600.
[4]KimY.Convolutionalneuralnetworksforsentenceclassifi
cation[EB].arXiv:1408.5882,2014.
[5]ZengD,LiuK,LaiS,etal.Relationclassificationviacon
volutionaldeepneuralnetwork[C]//InternationalConfer
enceonComputationalLinguistics,2014:2335-2344.
[6]NguyenDQ,NguyenTD,NguyenDQ,etal.Anovelem
beddingmodelforknowledgebasecompletionbasedonconv
olutionalneuralnetwork[C]//TheNorthAmericanChapter
oftheAssociationforComputationalLinguistics.ACM,
2018:327-333.
[7]BordesA,UsunierN,GarciaDuranA,etal.Translating
embeddingsformodelingmultirelationaldata[C]//Proceed
ingsofthe26thInternationalConferenceonNeuralInforma
tionProcessingSystems.CurranAssociates,2013:2787-
2795.
[8]WangZ,ZhangJW,FengJL,etal.Knowledgegraphem
beddingbytranslatingonhyperplanes[C]//Proceedingsof
the28thAAAIConferenceonArtificialIntelligence.AAAI
Press,2014:1112-1119.
[9]LinYK,LiuZY,SunMS,etal.Learningentityandrela
tionembeddingsforknowledgegraphcompletion[C]//Pro
ceedingsofthe29thAAAIConferenceonArtificialIntelli
gence.AAAIPress,2015:2181-2187.
[10]JiG,HeS,XuL,etal.Knowledgegraphembeddingvia
[14]XieRB,LiuZY,JiaJ,etal.Representationlearningof
knowledgegraphwithentitydescriptions[C]//Proceedings
oftheThirtiethAAAIConferenceonArtificialIntelligence.
AAAIPress,2016:2659-2665.
[15]HamaguchiT,OiwaH,ShimboM,etal.Knowledgetrans
ferforoutofknowledgebaseentities:Agraphneuralnet
workapproach[C]//Proceedingsofthe26thInternational
JointConferenceonArtificialIntelligence.AAAIPress,2017:
1802-1808.
[16]YangB,YihWT,HeX,etal.Embeddingentitiesand
relationsforlearningandinferenceinknowledgebases[EB].
arXiv:1412.6575,2014.
[17]TrouillonT,WelblJ,RiedelS,etal.Complexembeddings
forsimplelinkprediction[C]//Proceedingsofthe33rd
InternationalConferenceonInternationalConferenceonMa
chineLearning,2016:2071-2080.
[18]DettmersT,MinerviniP,StenetorpP,etal.Convolutional
2Dknowledgegraphembeddings[C]//Proceedingsofthe
AAAI,2018:1811-1818.
[19]KingmaD,BaJ.Adam:Amethodforstochasticoptimiza
tion[C]//ProceedingsoftheInternationalConferenceon
LearningRepresentations,2015.
[20]ToutanovaK,ChenD.Observedversuslatentfeaturesfor
knowledgebaseandtextinference[C]//Proceedingsofthe
3rdWorkshoponContinuousVectorSpaceModelsandtheir
Compositionality,2015:57-66.
(上接第164页)
[11]张福海,李宁,袁儒鹏,等.基于强化学习的机器人路径规
划算法[J].华中科技大学学报(自然科学版),2018,46
(12):65-70.
[12]SardaEI,QuH,BertaskaIR,etal.Stationkeepingcontrol
ofanunmannedsurfacevehicleexposedtocurrentandwind
disturbances[J].OceanEngineering,2016,127:305-324.
[13]LillicrapTP,HuntJJ,PritzelA,etal.Continuouscontrol
withdeepreinforcementlearning[EB].arXiv:1509.
02971,2015.
发布者:admin,转转请注明出处:http://www.yc00.com/web/1713904396a2341645.html
评论列表(0条)