无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法(5...|江阴雨辰互联

2023年7月29日发(作者：)

⽆⼈机辅助移动边缘计算的计算卸载优化：⼀种深度确定性策略梯度⽅法（5）——结果与分析⽆⼈机辅助移动边缘计算的计算卸载优化:⼀种深度确定性策略梯度⽅法（5）——结果与分析参考⽂献：5 结果与分析在本节中，我们通过数值模拟来说明提出的基于 DDPG 的⽆⼈机辅助 MEC 系统计算卸载框架。⾸先，介绍了仿真参数的设置。然后，对基于 DDPG 的框架在不同场景下的性能进⾏了验证，并与其他基线⽅案进⾏了⽐较。5.1 仿真设置在⽆⼈机辅助的 MEC 系统中，我们考虑⼀个

K=4 UEs 随机分布在

L×W=100×100m2 的2维平⾯，假设⽆⼈机在固定⾼度

H=100m 飞⾏。根据[26]的定义，⽆⼈机的总质量为

MUAV=9.65kg 。整个时间段

T=400s分为 I = 40 个时隙。参考[9]，⽆⼈机最⼤飞⾏速度vmax=50m/s，⽆⼈机在每个时隙的飞⾏时间

tfly=1s 。在参考距离为1⽶时，通道功率增益被设置为

α0=−50dB。设置传输带宽为

B=1MHz。假设没有信号遮挡下，接收机的噪声功率为

σ2=−100dBm 。如果信号在⽆⼈机与UE k之间传输过程中被阻塞，即信号为

fk(i)=1 。渗透损失为

PNLOS=20dB 。我们假设 UEs 的传输功率为

Pup=0.1W， UAV电池容量

Eb=500kJ 和所需CPU周期/位 s=1000周期/位。UE 和 MEC 服务器的计算能⼒分别设置为

fUE=0.6GHz 和

fUAV=1.2GHz。将所提出的状态归⼀化算法中的⽐例因⼦分别设置为

γb=5×105,γx=100,γy=100,γDrm=1.05×108,γDUE=2.62×106 。除另有说明外，具体仿真参数如表1所⽰。在我们的实验中，使⽤算法 3 在相同设置下多次运⾏获得的平均奖励来进⾏性能⽐较。为作⽐较，现将四种基线⽅法说明如下:将所有任务卸载到⽆⼈机(仅卸载):在每个时间段，⽆⼈机将在区域中⼼的固定位置向终端提供计算服务。UE 将所有的计算任务都交给⽆⼈机上的 MEC 服务器处理。全本地执⾏(Local-only):在不借助⽆⼈机的情况下，终端的所有计算任务都在本地执⾏。基于Actor Critical 的计算卸载算法 (AC):为了评价本⽂提出的基于 DDPG 的计算卸载算法的性能，在计算卸载问题上还实现了基于连续动作空间的 RL 算法 AC 。为了与 DDPG 进⾏⽐较， AC 还采⽤了状态归⼀化。基于DQN的计算卸载算法(DQN):将传统的基于离散动作空间的 DQN 算法与提出的基于 DDPG 的算法进⾏⽐较。在⽆⼈机飞⾏过程中，⾓度⽔平被定义为

B={0,π/5,…,2π} ，速度级别表⽰为

V={0,vmax/10,…,vmax} 和卸载⽐级别可设置为

O={0,0.1,…,1.0} 。为了与DDPG和AC进⾏⽐较，DQN还采⽤了状态归⼀化。5.2 仿真结果与讨论5.2.1 参数分析我们⾸先进⾏了⼀系列的实验，以确定最优值的重要超参数⽤于算法⽐较。本⽂算法在不同学习速率下的收敛性能如图 2 所⽰。我们假设评论⽹络和演员⽹络的学习速度是不同的。⾸先，我们可以清楚地看到，当

αActor

=0.1,αCritic

=0.2 或

αActor

=0.001,αCritic

=0.002 时，提出的算法可以收敛。但当

αActor

=0.1,αCritic

=0.2 时，算法收敛到局部最优解。究其原因，⼤的学习率将使批评家⽹络和演员⽹络都有⼀个⼤的更新步骤。其次，我们可以发现当学习速率很⼩时，即

αActor

=0.00001,αCritic

=0.00002 时，算法不能收敛。这是因为较低的学习率会导致dnn的更新速度较慢，需要更多的迭代⽚段来收敛。因此，actor⽹络和critic⽹络的最佳学习率分别为

αActor

=0.001,αCritic

=0.002 。在图 3 中，我们⽐较了不同折扣因⼦

γ 对算法收敛性能的影响。结果表明，当折扣因⼦

γ=0.001时，训练后的计算卸载策略性能最佳。原因是不同时期的环境差异很⼤，所以整个时间段的数据不能完全代表长期的⾏为。

γ 越⼤，说明 Q 表将整个时间段收集的数据视为长期数据，导致不同时间段的泛化能⼒较差。因此，适当的

γ 值将提⾼我们训练后的策略的最终性能，在接下来的实验中，我们将折扣因⼦

γ设置为0.001。图 4 显⽰了在不同探测参数

σe 下，本⽂算法在处理延迟⽅⾯的性能⽐较。该探测参数对算法的收敛性能影响很⼤。当算法收敛于

σe=0.1 时，最佳延迟在63秒上下波动。

σe 值越⼤，随机噪声分布空间就越⼤，这使得 agent 可以探索更⼤的空间范围。当

σe=0.001时，算法在850次迭代时性能下降，

σe 较⼩，算法陷⼊局部最优解。因此，需要进⾏⼤量的实验才能获得⽆⼈机辅助场景下合适的探索设置。因此，为了在接下来的实验中获得更好的性能，我们选择

σe=0.01 。图 5 显⽰了不使⽤状态归⼀化和⾏为噪声的训练策略对 DDPG 训练算法的影响。⼀⽅⾯，如果在没有⾏为噪声的情况下训练 DDPG 算法，算法的收敛速度会变慢。另⼀⽅⾯，如果不进⾏状态归⼀化训练，即在状态归⼀化中不引⼊尺度因⼦，训练算法将失效。这是因为在没有状态归⼀化策略的情况下，Ebattery

(i)、

Dremain

(i) 和

Dk(i) 的值都太⼤，导致 DNNs 的随机初始化输出更⼤的值。因此，如果在DDPG 算法中不采⽤我们提出的状态归⼀化策略，该算法最终会变成贪婪算法。5.2.2 性能⽐较图 6 显⽰了不同算法之间的性能⽐较。在图 6a 中，我们对 R L算法的 DNNs 进⾏了总计1000次迭代的训练。从图中可以看出，随着迭代次数的增加， AC 算法不能收敛，⽽ DQN 和 DDPG 算法都可以收敛。这是因为 AC 算法存在着⾏动者⽹络和批评⽹络同时更新的问题。⾏动者⽹络的⾏为选择依赖于评论⽹络的价值功能，但评论⽹络本⾝难以收敛。因此，AC算法在某些情况下可能不收敛。相⽐之下，DQN 和 DDPG均受益于评价⽹络和⽬标⽹络的双⽹络结构，可⽤于切断训练数据之间的相关性，从⽽找到最优的⾏动策略。利⽤算法收敛后的延迟结果，⽐较不同任务⼤⼩设置下的算法，结果如图 6b 所⽰。在图 6b 中，对于相同的任务⼤⼩， DDPG 算法的时延在五种算法中始终是最低的。由于探索了离散的动作空间和可⽤动作之间的不可忽略空间， DQN ⽆法准确地找到最优卸载策略。⽽ DDPG 算法则探索⼀个连续的动作空间，并采取⼀个精确的动作，最终获得最优策略，显著减少了延迟。此外， DQN 算法的收敛速度远⾼于 DDPG 算法。 Offload-only 和 Local-only 两种算法不能充分利⽤整个系统的计算资源。因此，对于相同的任务⼤⼩， DDPG 算法的处理延迟明显低于 Offload-only 和 Local-only 算法。此外，随着任务⼤⼩的增⼤， DDPG 算法优化后的处理延迟增加速度明显慢于 Offload-only 和Local-only 算法，表明了该算法的优势。图 7a 和图 b 显⽰了同⼀组实验在延迟和卸载⽐⽅⾯的性能。图 7a 显⽰了不同 UE 计算能⼒下 DQN ⽅案和 DDPG ⽅案的收敛性能。本⽂提出的⽅案之所以没有与 AC ⽅案进⾏⽐较，是因为 AC ⽅案仍然不收敛。我们可以发现，当 UE 的计算能⼒较⼩时，即

fUE=0.4GHz 时，两种优化⽅案优化后的处理延迟要⾼于fUE=0.6GHz时的处理延迟。另⼀⽅⾯，从图 7b 中可以看出，当 UE 的计算能⼒较⼤时，系统的平均卸载率较⼩，因此 UE 更倾向于在本地执⾏任务。UE 的计算能⼒越⼩，同时系统的数据处理速度越慢，导致本地执⾏和卸载之间的最⼤延迟越⼤。图 7c 为本⽂⽅案与 DQN ⽅案在不同CPU 频率条件下优化后的时延⽐较。由图 7c 可以看出，在不同 UE 计算能⼒下，与 DQN ⽅案相⽐，本⽂提出的 DDPG ⽅案具有更低的延迟。这是因为 DDPG ⽅案可以输出多个连续的动作，⽽不是 DQN 中有限的离散动作集。因此， DDPG 可以找到⼀个精确的、对连续动作控制系统延迟影响较⼤的因⼦，即卸载⽐。在图 8 中，我们⽐较了UE 的数量在1到10之间变化下 DDPG ⽅案、 DQN 、 Offload-only 和 Local-only 的平均处理延迟。我们假设在不同数量的终端下，⼀个时间段内要完成的总任务⼤⼩是相同的。如图 8 所⽰，随着 UE 数量的增加，除 DQN 外，其他⽅案的平均处理延迟⼏乎不变。随着 UE 数量的增加， DQN ⽅案的处理延迟在 86 s左右波动。原因可以解释如下。不同数量 UE 的情况下， DQN 输出动作取值范围差异较⼤。因此，当样本作为 DNN 训练的输⼊时， DNN 可能倾向于输出更⼤的值。 DDPG 的演员⽹络输出多维动作，保证了 DNN 的输⼊数据在同⼀范围内，即 [0,1] ，保证了 DDPG 算法的收敛性和稳定性。此外，所提出的 DDPG ⽅案具有最⼩的延迟。这是因为 DDPG ⽅案能够在连续动作中找到最优值，从⽽得到最优控制策略。

发布者：admin，转转请注明出处：http://www.yc00.com/news/1690625083a380910.html