LunarLander 是 OpenAI Gym 中的经典环境,模拟一个着陆器在月球表面软着陆的过程。目标是在着陆器不翻倒的情况下,平稳地降落在着陆点上。使用 PyTorch 实现基于 Policy Gradient 的强化学习算法,训练智能体在 LunarLander-v3 环境中获得高分。 1.搭建一个基于 PyTorch 的 ...