基于强化学习的飞行自动驾驶仪设计
针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分割为若干组,在不同的飞行状态时,调取不同组中的动作;...
针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分割为若干组,在不同的飞行状态时,调取不同组中的动作;...
无线传感网络存在关键区域节点能量消耗过快,节点能量供应有限以及通信链路拥塞等问题,容易造成节点故障和路由破坏。为减小上述问题对网络传输造成的影响,提出一种基于Q学习的无线传感网络自愈算法,通过引入Q学习的反馈机制,动态感知网络的状态信息,当故障发生时,自适应地选择恢复路径,保证数据实时顺利传输。仿真...
车联网行业知识学习...
黄金版GSM模块学习文档...
我是打算今年考软考的 在网上找了点资料学习 希望能帮助和我一样热爱学习的人~...