📄 第二章 神经网络控制.htm
字号:
</P>
<DIV align=center>
<CENTER>
<TABLE cellSpacing=0 cellPadding=0 width="80%" border=0>
<TBODY>
<TR>
<TD width="86%"><IMG height=28 src="第二章 神经网络控制.files/5.htm40.gif"
width=193 border=0></TD>
<TD width="14%">(2.4)</TD></TR></TBODY></TABLE></CENTER></DIV></TD></TR>
<TR>
<TD width="100%">
<P>神经网络N<SUB>c</SUB>是控制器。它根据自身输出,对象输出和给定信号r而产生下时刻的控制信号u。N<SUB>c</SUB>通常是N<SUB>i</SUB>对对象辨识之后所得到的对象逆模型。
</P>
<P>NMRAC控制的目的在于产生一个恰当的控制信号u(k),使对象输出y<SUB>p</SUB>和参考模型的输出y<SUB>m</SUB>的偏差小于给定误差值c,即</P>
<DIV align=center>
<CENTER>
<TABLE cellSpacing=0 cellPadding=0 width="80%" border=0>
<TBODY>
<TR>
<TD width="86%"><IMG height=33 src="第二章 神经网络控制.files/5.htm41.gif"
width=233 border=0></TD>
<TD width="14%">(2.5)</TD></TR>
<TR>
<TD width="86%" height=2>
<P>y<SUB>p</SUB>和y<SUB>m</SUB>的偏差用e<SUB>c</SUB>来表示,可以写下式:</P></TD>
<TD width="14%" height=2></TD></TR>
<TR>
<TD
width="86%">e<SUB>c</SUB>(k)=y<SUB>p</SUB>(k)-y<SUB>m</SUB>(k)</TD>
<TD width="14%">(2.6)</TD></TR></TBODY></TABLE></CENTER></DIV></TD></TR>
<TR>
<TD width="100%">
<P>如果e<SUB>c</SUB>=0.则说控制结果和期望值一样。在NMRAC控制系统中,首先对辨识器Ni进行训练,预报偏差e<SUB>i</SUB>用于训练N<SUB>i</SUB>。如果学习之后,N<SUB>i</SUB>能精确地描述对象P,并P的逆模型存在;那么,则有Ni输出y<SUB>p</SUB>(k+1):
</P>
<DIV align=center>
<CENTER>
<TABLE cellSpacing=0 cellPadding=0 width="75%" border=0>
<TBODY>
<TR>
<TD><IMG height=40 src="第二章 神经网络控制.files/5.htm42.gif" width=644
border=0></TD></TR></TBODY></TABLE></CENTER></DIV>
<P align=right>(2.7)</P>
<P>设参考模型为</P>
<P>y<SUB>m</SUB>(k+1)=h[y<SUB>m</SUB>(k),y<SUB>m</SUB>(k-1),......y<SUB>m</SUB>(k-s)]+r(k)
(2.8)</P>
<P>则有逆模型</P>
<DIV align=center>
<CENTER>
<TABLE cellSpacing=0 cellPadding=0 width="75%" border=0>
<TBODY>
<TR>
<TD><IMG height=68 src="第二章 神经网络控制.files/5.htm43.gif" width=708
border=0></TD></TR></TBODY></TABLE></CENTER></DIV>
<P> </P>
<P>以ym(k+1)取代yp(k+1),代入式(2.9)有</P>
<P>u(k)=g<SUP>-1</SUP>{h[y<SUB>m</SUB>(k),y<SUB>m</SUB>(k-1),......,y<SUB>m</SUB>(k-s)]+r(k)-f[y<SUB>p</SUB>(k),y<SUB>p</SUB>(k-1),......,y<SUB>p</SUB>(k-n)]}-g'[u(k-1),......,u(k-m)]
(2.10)</P>
<P>为了构成控制器,用对象输出y<SUB>p</SUB>取代式(2.10)中的参考模型输出y<SUB>m</SUB>,有</P>
<P>u(k)=g<SUP>-1</SUP>{h[y<SUB>p</SUB>(k),y<SUB>p</SUB>(k-1),......,y<SUB>p</SUB>(k-s)]+r(k)-f[y<SUB>p</SUB>(k),y<SUB>p</SUB>(k-1),......,y<SUB>p</SUB>(k-n)]}-g'[u(k-1),......,u(k-m)]
(2.11)</P>
<P>用式(2.11)就可以组成神经网络控制器Ne。显然,控制器Nc的输入由三部分组成,即是给定r(t),对象输出yp(t)和控制器的输出u(t)。</P>
<P>如果对象P的逆模型难以用式(2.9)表示,那么.可以用辨识器Ni的输出和参考模型M输出的偏差;或者对象输出和参考模型的偏差ec=yp(k)—ym(k)对神经网络Nc进行训练.从而最终确定Nc。</P>
<P>神经网络自校正控制简称NSTC(Neural Self-Tuning Control)。在这种控制方式中,神经网络是一个自校正调节器。</P>
<P>设对象模型和式(2.7)式同,则有</P>
<P>y<SUB>p</SUB>(k+1)=f[y<SUB>p</SUB>(k),y<SUB>p</SUB>(k-1),......,y<SUB>p</SUB>(k-n)]+g[u(k),u(k-1),......,u(k-m)]
(2.12)</P>
<P>如果对象的逆模型存在,则得</P>
<P>u(k)=g<SUP>-1</SUP>{y<SUB>p</SUB>(k+1)-f[y<SUB>p</SUB>(k),y<SUB>p</SUB>(k-1),......y<SUB>p</SUB>(k-n)]}-g'[u(k-1),......,u(k-m)]
(2.13)</P>
<P>在g-1[·]和g’[·]未知时,可以采用两个神经网络通过学习来逼近。则所得的神经网<BR>络控制器就是一个自校正控制器。这个系统就是NSTC系统。在系统中,要求y<SUB>p</SUB>(k+1)向I(k+1)逼近,故而上式(2.13)可写成:</P>
<P>u(k)=g<SUP>-1</SUP>{r(k+1)-f[y<SUB>p</SUB>(k),y<SUB>p</SUB>(k-1),......,y<SUB>p</SUB>(k-n)]}-g'[u(k-1),......,u(k-m)]
(2.14)</P>
<P>NSTC系统的结构如图2—4所示。很明显</P>
<P align=center><IMG height=276 src="第二章 神经网络控制.files/5.htm44.gif"
width=601 border=0></P>
<P align=center>图2-4 NSTC系统的结构</P></TD></TR>
<TR>
<TD width="100%">
<P>神经网络控制器Nc是出实现g‘和g功能的两个网络组成的。学习训练时,用偏差信<BR>号e<SUB>p</SUB><SUB>。</SUB>
</P>
<P>e<SUB>p</SUB>=r(k+1)-y<SUB>p</SUB>(k+1)</P>
<P>来描述神经网络对逆模型的逼近程度。</P>
<P>2.1.4 实用反向传播控制和适应评价控制</P>
<P>实用反向传播控制和适应评价控制是用神经网络实现最优控制的通用方法。这两种方法有着不同的思想。</P>
<P>一、实用反向传播(Back-propagation of utility)控制</P>
<P>实用反向传播是依时间反向传播的一种扩展算法。由Werbos提出的依时间反向传播<BR>(Back—Propagation through
time)是一种通常用于训练循环网络的算法。在其基础上发展的<BR>实用反向传搅在控制系统上可以形成间接逆控制系统。这种系统如图2—5所示。<BR>在这种系统中,一般是在逆模型神经网络执行误差反向传播时,其最后一层误差是由正<BR>模型神经网络的误差反传过来的。很明显,在控制系统中,对象的正向模型Ni的作用是进<BR>行误差回传。在实际应用中.这种方法存在—些问题;既然,反向传播的信号是通过正向模<BR>型的;所以,实用反向传播算法需要一个良好的模型。但是.要用神经网络建立一个好的模<BR>型并非—件容易的事。</P>
<P align=center><IMG height=274 src="第二章 神经网络控制.files/5.htm45.gif"
width=511 border=0></P>
<P align=center>图2-5 实用反向传播控制</P></TD></TR>
<TR>
<TD width="100%">
<P>实用反向传播在目前要很透彻描述还存在一定困难;但是,它毕业是—种具有多方面应用潜力的方法。 </P>
<P>二、适应评价控制</P>
<P>适应评价(Adaptive Critics)概念是增强学习(Reinforcement
Learning)的扩充方法。增强学习是Barto等人提出来的;它用两个神经网络执行工作。适应评价控制的结构如图2-6所示。</P>
<P align=center><IMG height=196 src="第二章 神经网络控制.files/5.htm46.gif"
width=416 border=0></P>
<P align=center>图2-6 适应评价网络</P></TD></TR>
<TR>
<TD width="100%">
<P>适应评价的学习机构由一个联想搜索单元ASE(Associative Search Element)和一个适应评价单元(Adaptive
Critic
Element)组成。在学习时,ASE在增强反馈的影响下通过搜索求取输入与输出的相联关系;ACE构成比增强反馈单独可以提供的更丰富的信息评价函数。在这种学习算法中,ASE是作用网络;ACE是评价网络;并且无需被控过程的模型。
</P>
<P>这种由两个网络组成的适应评价算法
已经在很多小的控制问题上取得了很好的效果。但是,由于评价的输出J用于表示总效果,也即表示评价结果;而评价结果不足以确定作用网络在学习中寻优的方向。所以,在大的控制问题还有各种困难。</P>
<P>和实用反向传播一样,适应评价在目前还存在不少困难;但是它仍是一种有潜力的方法。</P></TD></TR>
<TR>
<TD width="100%">
<P align=right><A
href="http://www.jgchina.com/ednns/ednnsbk/4.5.htm">上一页</A>
<A
href="http://www.jgchina.com/ednns/ednnsbk/5.2.htm">下一页</A></P></TD></TR></TBODY></TABLE></BODY></HTML>
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -