TRL

大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization
大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization Proximal Policy Optimization 这是一个
实战模型TRLTransformerReinforcement
admin1月前
230