首页 > 软件资讯 > 老司机开车了!用飞桨玩AirSim智能驾驶

老司机开车了!用飞桨玩AirSim智能驾驶

时间：2025-08-05 11:12:25

本文介绍如何用飞桨PARL强化学习框架在微软AirSim仿真环境实现智能驾驶。先说明环境配置，包括安装Win10、VS2019、虚幻引擎、AirSim等及验证方法；再讲用Python控制汽车的步骤；最后详述基于飞桨PARL的DQN算法实现，含代码清单、逻辑，还提及相关训练地图和视频。

老司机开车了!用飞桨玩AirSim智能驾驶

https://www.bilibili.com/video/BV1UY4y1e7s5"https://img.php.cn/upload/article/001/571/248/175367178474405.jpg" >

训练过程视频：PARL_AirSim_DQN.mp4

前言

PARL是由百度大脑出品的、高性能、易用的国产强化学习（RL）框架。

下载Visual Studio Community 2019 使用C++的桌面开发安装组件：Window 10 SDK(10.0.18362.0)

下载Epic Game Launcher并安装4.26以上版本的“虚幻引擎”

重启Epic Game Launcher并关联项目文件

下载AirSim源代码：git clone https://github.com/Microsoft/AirSim.git

在VS 开发环境中，使用`build.cmd`命令编译本地AirSim源代码，并确保插件已正确安装和配置。

请按照以下步骤操作：打开名为Developer Command Prompt for VS 的命令提示符。在$ProjectRootUnrealEnvironmentsBlocks目录中，运行更新从Git.bat脚本以完成初始化。确认弹出窗口并点击“确定”，这样当前引擎就会与之关联。进入Blocks.sln项目文件夹，并双击打开它。这时会自动启动Visual Studio 境。在编译选项中，选择Development Editor + Win确保能够正确运行构建过程。点击“调试”菜单下的“开始调试”按钮，虚幻编辑器将被启动，此时建议查看教程内容。最后一步是点击运行并选择确定。如果一切设置到位，你应该会在虚幻编辑器中看到AirSim环境的安装成功标识。

二、使用Python控制汽车

1. 配置Anaconda环境

略

2. pip安装AirSim依赖包

# 安装Unreal和python之间的通讯协议 pip install msgpack-rpc-python # 安装airsim的python库 pip install airsim登录后复制

3. 下载并安装Unreal 的 Landscape Mountains环境

请参考：下载与安装示例章节，不再赘述。

4. 启动VS Code,打开文件夹PythonClientcar，运行hello_car.py，效果如下：

三、使用飞桨PARL强化学习算法驾驶汽车

下载AirSim预编译的windows版本的训练地图：

AirSim_Paddle │ setup_path.py│ │ agent.py│ model.py│ replay_memory.py│ train.py│ └─airgym │ __init__.py │ └─envs airsim_env.py car_env.py drone_env.py __init__.py登录后复制

环境代码清单：

setup_path.py AirSim环境设置 airgym目录 __init__.pypython包配置 envs目录

airsim_env.py 基础环境配置登录后复制

car_env.py 汽车训练环境配置登录后复制

`__init__.py` python包配置登录后复制

DQN算法代码清单：

train.py：本程序负责训练DQN模型；model.py、agent.py 和 replay_memory：都是飞桨PARL三件套组件的一部分。其中，replay_memory 是用于记忆和重用经验的模块。

代码逻辑

启动AirSim Gym游戏场景，加载PyTorch ALPll库中的DQN算法。进行预热记忆回放，设定初始条件后，系统将自动执行行动学习过程。

在不断迭代的过程中，我们的模型通过记忆回放学习经验来提高性能。每一步，我们都会增加步数，并从最近的观测中获取作为上下文。接着，我们使用E-Greedy算法选择动作，并执行它以获得奖励。然后，我们将环境中的下一个状态、奖励和是否结束的信息添加到训练记忆回放中。每次学习时，我们会从经验回放中随机抽取一些样本进行批量处理。利用这些样本，我们可以更新我们的模型参数来改善性能。每个步骤的损失都会被记录下来，并在最终返回总奖励和步数以及平均损失后打印出来。