基于强化学习的飞行自动驾驶仪设计
针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分割为若干组,在不同的飞行状态时,调取不同组中的动作;...
针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分割为若干组,在不同的飞行状态时,调取不同组中的动作;...
这个代码是policy iteration算法关于强化学习的. 请您用winzip 解压缩...
用java写的一个强化学习程序,猫通过学习学会了抓老鼠。...
强化学习算法(R-Learning)难得的珍贵资料,在国外找的。分享给大家。...
贝叶斯学习与强化学习结合技术的研 详细介绍了强化学习的算法和理论...