无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法(5...

无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法(5...

2023年7月29日发(作者:)

⽆⼈机辅助移动边缘计算的计算卸载优化:⼀种深度确定性策略梯度⽅法(5)——结果与分析⽆⼈机辅助移动边缘计算的计算卸载优化:⼀种深度确定性策略梯度⽅法(5)——结果与分析参考⽂献:5 结果与分析在本节中,我们通过数值模拟来说明提出的基于 DDPG 的⽆⼈机辅助 MEC 系统计算卸载框架。⾸先,介绍了仿真参数的设置。然后,对基于 DDPG 的框架在不同场景下的性能进⾏了验证,并与其他基线⽅案进⾏了⽐较。5.1 仿真设置在⽆⼈机辅助的 MEC 系统中,我们考虑⼀个

K=4 UEs 随机分布在

L×W=100×100m2 的2维平⾯,假设⽆⼈机在固定⾼度

H=100m 飞⾏。根据[26]的定义,⽆⼈机的总质量为

MUAV=9.65kg 。整个时间段

T=400s分为 I = 40 个时隙。参考[9],⽆⼈机最⼤飞⾏速度vmax=50m/s,⽆⼈机在每个时隙的飞⾏时间

tfly=1s 。在参考距离为1⽶时,通道功率增益被设置为

α0=−50dB。设置传输带宽为

B=1MHz。假设没有信号遮挡下,接收机的噪声功率为

σ2=−100dBm 。如果信号在⽆⼈机与UE k之间传输过程中被阻塞,即信号为

fk(i)=1 。渗透损失为

PNLOS=20dB 。我们假设 UEs 的传输功率为

Pup=0.1W, UAV电池容量

Eb=500kJ 和所需CPU周期/位 s=1000周期/位。UE 和 MEC 服务器的计算能⼒分别设置为

fUE=0.6GHz 和

fUAV=1.2GHz。将所提出的状态归⼀化算法中的⽐例因⼦分别设置为

γb=5×105,γx=100,γy=100,γDrm=1.05×108,γDUE=2.62×106 。除另有说明外,具体仿真参数如表1所⽰。在我们的实验中,使⽤算法 3 在相同设置下多次运⾏获得的平均奖励来进⾏性能⽐较。为作⽐较,现将四种基线⽅法说明如下:将所有任务卸载到⽆⼈机(仅卸载):在每个时间段,⽆⼈机将在区域中⼼的固定位置向终端提供计算服务。UE 将所有的计算任务都交给⽆⼈机上的 MEC 服务器处理。全本地执⾏(Local-only):在不借助⽆⼈机的情况下,终端的所有计算任务都在本地执⾏。基于Actor Critical 的计算卸载算法 (AC):为了评价本⽂提出的基于 DDPG 的计算卸载算法的性能,在计算卸载问题上还实现了基于连续动作空间的 RL 算法 AC 。为了与 DDPG 进⾏⽐较, AC 还采⽤了状态归⼀化。基于DQN的计算卸载算法(DQN):将传统的基于离散动作空间的 DQN 算法与提出的基于 DDPG 的算法进⾏⽐较。在⽆⼈机飞⾏过程中,⾓度⽔平被定义为

B={0,π/5,…,2π} ,速度级别表⽰为

V={0,vmax/10,…,vmax} 和卸载⽐级别可设置为

O={0,0.1,…,1.0} 。为了与DDPG和AC进⾏⽐较,DQN还采⽤了状态归⼀化。5.2 仿真结果与讨论5.2.1 参数分析我们⾸先进⾏了⼀系列的实验,以确定最优值的重要超参数⽤于算法⽐较。本⽂算法在不同学习速率下的收敛性能如图 2 所⽰。我们假设评论⽹络和演员⽹络的学习速度是不同的。⾸先,我们可以清楚地看到,当

αActor

=0.1,αCritic

=0.2 或

αActor

=0.001,αCritic

=0.002 时,提出的算法可以收敛。但当

αActor

=0.1,αCritic

=0.2 时,算法收敛到局部最优解。究其原因,⼤的学习率将使批评家⽹络和演员⽹络都有⼀个⼤的更新步骤。其次,我们可以发现当学习速率很⼩时,即

αActor

=0.00001,αCritic

=0.00002 时,算法不能收敛。这是因为较低的学习率会导致dnn的更新速度较慢,需要更多的迭代⽚段来收敛。因此,actor⽹络和critic⽹络的最佳学习率分别为

αActor

=0.001,αCritic

=0.002 。在图 3 中,我们⽐较了不同折扣因⼦

γ 对算法收敛性能的影响。结果表明,当折扣因⼦

γ=0.001时,训练后的计算卸载策略性能最佳。原因是不同时期的环境差异很⼤,所以整个时间段的数据不能完全代表长期的⾏为。

γ 越⼤,说明 Q 表将整个时间段收集的数据视为长期数据,导致不同时间段的泛化能⼒较差。因此,适当的

γ 值将提⾼我们训练后的策略的最终性能,在接下来的实验中,我们将折扣因⼦

γ设置为0.001。图 4 显⽰了在不同探测参数

σe 下,本⽂算法在处理延迟⽅⾯的性能⽐较。该探测参数对算法的收敛性能影响很⼤。当算法收敛于

σe=0.1 时,最佳延迟在63秒上下波动。

σe 值越⼤,随机噪声分布空间就越⼤,这使得 agent 可以探索更⼤的空间范围。当

σe=0.001时,算法在850次迭代时性能下降,

σe 较⼩,算法陷⼊局部最优解。因此,需要进⾏⼤量的实验才能获得⽆⼈机辅助场景下合适的探索设置。因此,为了在接下来的实验中获得更好的性能,我们选择

σe=0.01 。图 5 显⽰了不使⽤状态归⼀化和⾏为噪声的训练策略对 DDPG 训练算法的影响。⼀⽅⾯,如果在没有⾏为噪声的情况下训练 DDPG 算法,算法的收敛速度会变慢。另⼀⽅⾯,如果不进⾏状态归⼀化训练,即在状态归⼀化中不引⼊尺度因⼦,训练算法将失效。这是因为在没有状态归⼀化策略的情况下,Ebattery

(i)、

Dremain

(i) 和

Dk(i) 的值都太⼤,导致 DNNs 的随机初始化输出更⼤的值。因此,如果在DDPG 算法中不采⽤我们提出的状态归⼀化策略,该算法最终会变成贪婪算法。5.2.2 性能⽐较图 6 显⽰了不同算法之间的性能⽐较。在图 6a 中,我们对 R L算法的 DNNs 进⾏了总计1000次迭代的训练。从图中可以看出,随着迭代次数的增加, AC 算法不能收敛,⽽ DQN 和 DDPG 算法都可以收敛。这是因为 AC 算法存在着⾏动者⽹络和批评⽹络同时更新的问题。⾏动者⽹络的⾏为选择依赖于评论⽹络的价值功能,但评论⽹络本⾝难以收敛。因此,AC算法在某些情况下可能不收敛。相⽐之下,DQN 和 DDPG均受益于评价⽹络和⽬标⽹络的双⽹络结构,可⽤于切断训练数据之间的相关性,从⽽找到最优的⾏动策略。利⽤算法收敛后的延迟结果,⽐较不同任务⼤⼩设置下的算法,结果如图 6b 所⽰。在图 6b 中,对于相同的任务⼤⼩, DDPG 算法的时延在五种算法中始终是最低的。由于探索了离散的动作空间和可⽤动作之间的不可忽略空间, DQN ⽆法准确地找到最优卸载策略。⽽ DDPG 算法则探索⼀个连续的动作空间,并采取⼀个精确的动作,最终获得最优策略,显著减少了延迟。此外, DQN 算法的收敛速度远⾼于 DDPG 算法。 Offload-only 和 Local-only 两种算法不能充分利⽤整个系统的计算资源。因此,对于相同的任务⼤⼩, DDPG 算法的处理延迟明显低于 Offload-only 和 Local-only 算法。此外,随着任务⼤⼩的增⼤, DDPG 算法优化后的处理延迟增加速度明显慢于 Offload-only 和Local-only 算法,表明了该算法的优势。图 7a 和图 b 显⽰了同⼀组实验在延迟和卸载⽐⽅⾯的性能。图 7a 显⽰了不同 UE 计算能⼒下 DQN ⽅案和 DDPG ⽅案的收敛性能。本⽂提出的⽅案之所以没有与 AC ⽅案进⾏⽐较,是因为 AC ⽅案仍然不收敛。我们可以发现,当 UE 的计算能⼒较⼩时,即

fUE=0.4GHz 时,两种优化⽅案优化后的处理延迟要⾼于fUE=0.6GHz时的处理延迟。另⼀⽅⾯,从图 7b 中可以看出,当 UE 的计算能⼒较⼤时,系统的平均卸载率较⼩,因此 UE 更倾向于在本地执⾏任务。UE 的计算能⼒越⼩,同时系统的数据处理速度越慢,导致本地执⾏和卸载之间的最⼤延迟越⼤。图 7c 为本⽂⽅案与 DQN ⽅案在不同CPU 频率条件下优化后的时延⽐较。由图 7c 可以看出,在不同 UE 计算能⼒下,与 DQN ⽅案相⽐,本⽂提出的 DDPG ⽅案具有更低的延迟。这是因为 DDPG ⽅案可以输出多个连续的动作,⽽不是 DQN 中有限的离散动作集。因此, DDPG 可以找到⼀个精确的、对连续动作控制系统延迟影响较⼤的因⼦,即卸载⽐。在图 8 中,我们⽐较了UE 的数量在1到10之间变化下 DDPG ⽅案、 DQN 、 Offload-only 和 Local-only 的平均处理延迟 。我们假设在不同数量的终端下,⼀个时间段内要完成的总任务⼤⼩是相同的。如图 8 所⽰,随着 UE 数量的增加,除 DQN 外,其他⽅案的平均处理延迟⼏乎不变。随着 UE 数量的增加, DQN ⽅案的处理延迟在 86 s左右波动。原因可以解释如下。不同数量 UE 的情况下, DQN 输出动作取值范围差异较⼤。因此,当样本作为 DNN 训练的输⼊时, DNN 可能倾向于输出更⼤的值。 DDPG 的演员⽹络输出多维动作,保证了 DNN 的输⼊数据在同⼀范围内,即 [0,1] ,保证了 DDPG 算法的收敛性和稳定性。此外,所提出的 DDPG ⽅案具有最⼩的延迟。这是因为 DDPG ⽅案能够在连续动作中找到最优值,从⽽得到最优控制策略。

发布者:admin,转转请注明出处:http://www.yc00.com/news/1690625083a380910.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信