基于FPGA的深度强化学习硬件加速技术研究

STGing · 发表于 2022-8-4 10:10

EDA365欢迎您登录！

您需要登录才可以下载或查看，没有帐号？注册

x

摘要：深度强化学习（DRL）是机器学习领域的一个重要分支，用于解决各种序贯决策问题，在自动驾驶、工业物联网等领域具有广泛的应用前景;由于DRL 具备计算密集型的特点，导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署;针对 DRL在嵌入式平台上部署的局限性，采用软硬件协同设计的方法，设计了一种面向 DRL的 FPGA加速器，提出了一种设计空间探索方法;在ZYNQ7100异构计算平台上完成了对Cartpole 应用的在线决策任务;实验结果表明，研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和 GPU平台具有明显的优势，相比于CPU实现了12.03的加速比，相比于GPU实现了28.08的加速比，运行功耗仅有7.748 W，满足了深度强化学习在嵌入式领域的在线决策任务。

0 引言
强化学习（RL，reinforcement learning）是指从环境状态到动作映射的学习，以使动作从环境中获得累计奖赏值最大，经常被用于序贯决策层问题。与监督学习不同，RL 算法主要强调智能体与环境的交互，在二者的交互的过程中，环境会根据智能体所处的状态以及所决策的动作给予其一定的奖惩信号，智能体则会根据所获得的奖惩信号对自身的决策策略进行优化，从而最大化决策过程中所获得的累计奖励。
2013年，DeepMind 团队将深度学习中的卷积神经网络（CNN，convolutional neural network）算法与传统强化学习Q学习相结合，设计了DQN算法，在雅达利游戏平台中取得了比人类玩家更高的游戏分数，从此掀起了一股深度强化学习的研究浪潮。后续 DeepMind 团队基于DRL 算法所研发的 AlphaGo7和 AlphaGo Zero在机器博弈领域取得了巨大成功，更是成为了人工智能领域的里程碑事件。目前，DRL除了在游戏中进行应用外，直接在边缘设备上实现 DRL 同样有巨大的应用价值和广泛的应用前景，例如为充当巡逻机器人的无人机（UAV，unmanned aerial vehicle）提供自主避障和航路规划的能力，为无人车辆提供自主驾驶分析决策能力。
DQN 算法作为 DRL 领域的开山之作，被后续许多的DRL 算法所借鉴。其解决了传统Q学习的"维度灾难"问题，采用多层神经网络来完成值函数的非线性逼近功能，替代传统的Q表查询决策方式，将神经网络的感知能力和强化学习的决策能力结合，实现端到端的感知与决策。在智能体与环境交互的过程中，同时存在神经网络的推理与训练两类运算，这两类运算都具备计算密集型的特点，需要较强的算力才能保证算法的实时性。
DQN计算密集型的特点，对于计算资源和功耗都受限的边缘设备而言，直接实现深度强化学习算法存在一定的挑战。这种挑战主要来自于两方面∶一方面是 DQN 算法本身计算密集型特点和计算数据之间较强的依赖关系;另一方面是大多数嵌入式计算平台本身单指令单数据流计算架构的局限性，无法支持面向 DQN的高性能计算。这导致有关在嵌入式设备部署 DQN 算法的研究进展十分缓慢，相关研究现状在 1.2节中得到阐述。面向边缘在线决策应用，本文提出一种基于 FPGA平台的 DQN 算法实现方法，可以在 FPGA 平台上完成 DQN算法的推理和训练。主要工作如下∶
1）提出了一种基于FPGA平台的 DQN 算法的硬件实现架构，架构中的加速器 IP 核采用流式架构设计，可以灵活配置算法的训练超参数。
2）在 FPGA平台计算资源和存储资源的约束下，提出了一种设计空间的探索方法。通过定量分析 DQN 算法实现所需的存储资源和计算资源，获得 DQN 算法在 FPGA中进行加速部署时每一层的并行计算参数。
3）面向典型应用Cartpole 搭建了应用验证平台，在FPGA平台上进行了设计的功能验证和性能测试，并在网络的训练时间和功耗方面同CPU平台和GPU平台进行了实验对比。

1、背景
1.1DQN算法
RL 的基本模型可以用图1表示，通过智能体与环境的信息交互，实现决策功能。整个过程可用四元组<A，S，R，P>描述，式中A为智能体动作集合;S为智能体感知的环境信息;R 为智能体得到的奖励或惩罚

为智能体交互的环境。

Q学习算法作为一种经典的 RL 算法，使用Q查询表存储各个动作对应的 Q值，通过查询每个动作的Q值，指导智能体做出相应决策。受限于计算机存储的限制，Q 表在处理高维状态数据方面表现不佳。

2、基于 DQN的 FPGA 硬件架构和加速器设计
2.1 总体硬件架构
如图 2 所示，总体硬件架构主要包括外部存储器（DDR，direct digital rADIography）、处理单元（PS，pro-cessing system）、可编程逻辑部分（PL，processing logic）的加速器和片内外总线互联。我们通过 PS和PL 协同工作来高效的完成DQN 算法的计算，其中PS部分主要负责与环境进行交互，奖励函数的计算，DDR中训练经验池的维护，以及对 PL进行超参数和工作模式的配置

L 部分定制化设计 DQN 算法加速器，用于实现算法中神经网络的前向推理、误差反向传播和权值更新等计算密集部分，PL 部分加速器结构设计、加速算子设计及相关设计空间探索方法是研究的核心。

更多详细内容请下载附件查看

风吹过后 · 发表于 2022-8-4 11:15

看一看，学习学习。见识见识

名字好听吗 · 发表于 2022-8-4 13:16

看一看，学习学习

dragongfly · 发表于 2022-8-4 14:03

谢谢分享，下载研究一下。

帐号		自动登录	找回密码
密码			注册

基于FPGA的深度强化学习硬件加速技术研究

EDA365欢迎您登录！

浏览过的版块

推荐内容 /1