TA的每日心情 | 衰 2019-11-19 15:32 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
一种不稳定环境下的策略搜索及迁移方法 h6 J) h2 U! q/ s y# s: r+ a" ^
摘要:强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法—FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能.
3 c' w8 L. O- a: n( d. s9 ~关键词:强化学习;策略搜索;策略迁移;不稳定环境;公式集
! X0 p6 I" f6 l* |4 V/ k* {" ^
1引言
6 Z7 _" g6 g7 W强化学习( Reinforcement Learning , RL)是一种从环境状态到动作映射的学习:强化学习的Agent选择动作( action) ,状态( state)随之发生改变,环境对此给出一个立即奖赏( reward)作为激励信号.强化学习的目标是期望从环境中得到长期最大累计奖赏( return,R) 1.2].基于强化学习的算法通常利用马尔科夫决策过程(MarkovDecision Process , MDP)进行建模.在建模过程中,一般假设环境是稳定的,因此在学习过程中所建立的 MDP模型不会随着时间的变化而改变.但是,在很多实际情况中,环境虽然在某个较短时间是相对稳定的,从长期来看是并非是稳定而是会发生变化的.这导致了在原先环境中所建立的MDP模型很可能无法适用于新的环境.进一步分析可以发现,这种不稳定环境可以分解看成由多个生存期较短的“瞬时”稳定环境所组合而成的.相应的,在这种环境下,强化学习的目标就从获得长期较高累计奖赏转变为获得“瞬时”稳定环境期间较高累计奖赏.故而,不稳定环境的Agent不仅要考虑获取最优策略,还要考虑在学习过程中所搜集的立即奖赏以及其他历史信息,使之在每个“瞬时”稳定环境建立 MDP模型中,都获得较高的累计奖赏.但是两个主要的原因致使传统的强化学习算法不能很好地解决此类问题.首先,由于传统的强化学习算法通常只是求解一个最优策略,不考虑学习过程中所收集到的奖赏值,因此难以实现上述目标.其次,对于每个“瞬时”MDP , Agent可以与之交互一次,并取得一个状态样本转移序列,称之为单轨迹样本.在不稳定环境中, Agent 还必须额外考虑解决单轨迹样本学习过程中平衡探索和利用的难题.目前虽然也有一些工作将学习过程中的立即奖赏考虑进来[3~6],通过最小化无折扣累计
, \0 N; k' J4 O* ]5 ]9 y
7 K1 K# ?. G/ A" B# [) p! V5 l3 H( A/ y0 ^+ _7 r
7 U, f4 K g( \& @& W4 y8 O+ s4 w) k) p: z3 r+ [5 H
8 @. x8 n) E* ^8 P |
|