loss回传报错RuntimeError: Trying to backward through the graph a second time解决方法

1.背景:在做机器学习的时候,我很多时候都将输入的数据进行进一步的修改,在一次的修改后,程序报错RuntimeError: Trying to back

1.背景:

        在做机器学习的时候,我很多时候都将输入的数据进行进一步的修改,在一次的修改后,程序报错RuntimeError: Trying to backward through the graph a second time。表示试图在没有保留中间值的情况下多次执行计算图的反向传播

        在现在AI和大模型流行的今天,很多的问题都基本上可以借助ChatGPT进行判误以及解决问题,我首先也是向GPT提问,他给出了1.检查多余的反向传播调用 2.使用 retain_graph=True:以及 3.梯度清零的三个可能解决的方法,都对这个问题没有帮助

2.产生错误的原因——原地置换了训练数据

错误原因就是在90行 我在训练的时候对y_low进行的运算,导致了y_low这个训练数据变成了需要梯度回传,导致了重复多次回传的报错,这个错误很小很隐晦,我遇到了很多次,网上尝试的方法都是保留梯度图,允许多次回传之类的,但事实上并不管用,找出这个数据的流程是查看变量的属性

3.解决办法

        产生这个报错的原因可能有很多个,我这个只是其中一个情况,我的解决办法是不让y_low的运算产生梯度回传,因此需要在相应位置添加with torch.no_grad():

这样就解决了问题,方法是否管用还需要具体情况具体分析,有问题也可以评论区一起探讨~

补充1

date:2024.2.21

如果在神经网络的训练中,nn.Parameter没有被收集更新,保持一个不变的数值的话,也会导致这个报错的发生

比如这个语句:

self.length_scale = torch.exp(nn.Parameter(torch.log(torch.tensor(length_scale))))

它一直都是pytorch数据,而不是nn.Parameter类型,所以在第一次回传时数据就没有更新,第二次回传时就会出现上面的报错

正确的改法如下:

self.length_scale = nn.Parameter(torch.exp(torch.log(torch.tensor(length_scale))))

对于这个问题,很多情况都是因为代码不规范导致,至于报错的原因,我对这个问题的理解在不断深入,希望之后可以带来更加正确的解答,也希望大家和我多多探讨

发布者:admin,转转请注明出处:http://www.yc00.com/web/1755027055a5228389.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信