value_iteration.m

来自「Markov Decision Process (MDP) Toolbox」· M 代码 · 共 27 行

27 行

function [V, Q, iter] = value_iteration(T, R, discount_factor, oldV)% Solve Bellman's equation iteratively.% [V, Q, niter] = value_iteration(T, R, discount_factor, oldV)% oldV is an optional staring point.S = size(T,1);if nargin<4  % set initial value to R  oldV = max(R,[],2);end done = 0;% We stop iterating if max |V(i) - oldV(i)| < thresh.% This will yield a policy loss of no more than 2eg/(1-g),% where e=thresh and g=discount_factor.thresh = 1e-4;iter = 1;while ~done  iter = iter + 1;  Q = Q_from_V(oldV, T, R, discount_factor);  V = max(Q,[],2);  if approxeq(V, oldV, thresh), done = 1; end  oldV = V;end

value_iteration.m - 源码说明

本页面展示了「Markov Decision Process (MDP) Toolbox」中的 value_iteration.m 源码文件，采用 M 编程语言编写，共 27 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫开发者社区收录了大量与Markov决策过程相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?