局面评估函数——简介(二).htm

来自「象棋程序设计全资料集(介绍编写象棋程序的方法思路）」· HTM 代码 · 共 171 行
HTM
171 行
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<!-- saved from url=(0054)http://www.elephantbase.net/computer/evalue_intro2.htm -->
<HTML><HEAD><TITLE>局面评估函数——简介(二)</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb_2312-80">
<META content="" name=Owner>
<META content="" name=Reply-To>
<META content="MSHTML 6.00.3790.2817" name=GENERATOR></HEAD>
<BODY background=局面评估函数——简介(二)_files/background.gif>
<DL>
  <DIV align=center>
  <CENTER>
  <DT><FONT size=3>《对弈程序基本技术》专题</FONT> </CENTER></DT></DIV>
  <DIV align=center>
  <CENTER>
  <DT>　 </CENTER></DT></DIV>
  <DIV align=center>
  <CENTER>
  <DT><FONT face=隶书 size=6>调整评价函数</FONT> </CENTER></DT></DIV>
  <DIV align=center>
  <CENTER>
  <DT>　 </CENTER></DT></DIV>
  <DIV align=center>
  <CENTER>
  <DT><FONT face="Times New Roman">David Eppstein */</FONT>文 
</CENTER></DT></DIV>
  <DIV align=center>
  <CENTER>
  <DT><FONT face="Times New Roman">* </FONT>加州爱尔文大学<FONT 
  face="Times New Roman">(UC Irvine)</FONT>信息与计算机科学系 </CENTER></DT></DIV>
  <DT>　 
  <DT>　　上次我谈到了局面评价中的很多函数，把这些函数加起来就可以组合成评价函数。但是数值从哪里来？ 
  <DT>　　例如在黑白棋中，你可以说出四种函数： 
  <DT>　　<FONT face="Times New Roman">(1) <EM>f</EM>(</FONT>局面<FONT 
  face="Times New Roman">) = </FONT>子力<FONT face="Times New Roman">(</FONT>我的子数 
  <FONT face=Symbol>-</FONT><FONT face="Times New Roman"> </FONT>对手的子数<FONT 
  face="Times New Roman">)</FONT>； 
  <DT>　　<FONT face="Times New Roman">(2) <EM>g</EM>(</FONT>局面<FONT 
  face="Times New Roman">) = </FONT>角<FONT face="Times New Roman">(</FONT>我控制的 
  <FONT face=Symbol>-</FONT><FONT face="Times New Roman"> </FONT>对手控制的<FONT 
  face="Times New Roman">)</FONT>； 
  <DT>　　<FONT face="Times New Roman">(3) <EM>h</EM>(</FONT>局面<FONT 
  face="Times New Roman">) = </FONT>机动性<FONT 
  face="Times New Roman">(</FONT>我可以走的<FONT face="Times New Roman">)</FONT>。 
  <DT>　　你必须组合这些函数<FONT face="Times New Roman">(</FONT>可能还有其他项<FONT 
  face="Times New Roman">)</FONT>来构成一个评价函数：<FONT 
  face="Times New Roman">eval</FONT> <FONT face="Times New Roman">= <EM>a·f</EM> 
  + <EM>b·g</EM> + <EM>c·h</EM></FONT>。例如，你可以尝试：<FONT 
  face="Times New Roman">eval = </FONT><FONT face=Symbol>-</FONT><FONT 
  face="Times New Roman">1<EM>·f</EM> + 10<EM>·g</EM> + 1</FONT><EM>·</EM><FONT 
  face="Times New Roman"><EM>h</EM></FONT>。但是这些数值从哪里来？哪种数值的组合可以得到最好的效果？ 
  <DT>　　下面是手工找到这些数值的一些方法： 
  <DT>　 
  <DT><STRONG>　　</STRONG><FONT face="Times New Roman"><STRONG>(1) 
  </STRONG></FONT><STRONG>规格化</STRONG><FONT 
  face="Times New Roman"><STRONG>(Normalize)</STRONG></FONT><STRONG>。</STRONG>如果你只关心评价的顺序，而通常不怎么关心评价值，那么你就可以把每一项都乘以同样的常数。这就意味着你对某个特定的项目<FONT 
  face="Times New Roman">(</FONT>比如说兵的价值<FONT 
  face="Times New Roman">)</FONT>可以硬性设一个值，其他值就表示成它们相当于多少个兵。这个做法可以让你减少一个需要设定的参数。 
  <DT>　 
  <DT><STRONG>　　</STRONG><FONT face="Times New Roman"><STRONG>(2) 
  </STRONG></FONT><STRONG>约束法</STRONG><FONT 
  face="Times New Roman"><STRONG>(Deduce 
  Constraints)</STRONG></FONT><STRONG>。</STRONG>你希望让电脑作出什么样的判断，考虑这些问题就可以确定一些参数了。例如在国际象棋中，即使你赚到一个兵，用车换象或马通常还是坏的，但是如果你赚到两个兵那还是好的，因此子力价值要满足<FONT 
  face="Times New Roman">R&gt;B+P(</FONT>防止换单兵<FONT 
  face="Times New Roman">)</FONT>和<FONT 
  face="Times New Roman">R&lt;B+2P(</FONT>鼓励换双兵<FONT 
  face="Times New Roman">)</FONT>。这样的不等式你给得越多，合适的权重组合就越少。在一开始设定权重值的时候，这个方法通常可以得到合适的值，但是后面你仍然需要做一些调整。 

  <DT>　 
  <DT><STRONG>　　</STRONG><FONT face="Times New Roman"><STRONG>(3) 
  </STRONG></FONT><STRONG>交手法</STRONG><FONT face="Times New Roman"><STRONG>(Hand 
  Tweaking)</STRONG></FONT><STRONG>。</STRONG>这是很常用的方法，仅仅是让你的程序对弈足够多的次数，来找到它的优势和弱点，猜测哪些参数会让程序更好，然后挑选新的参数。这个方法可以很快得到合理的结果，但是你需要对这种棋类有足够的了解，这样就可以根据程序的对局来做分析，知道程序的问题在哪里。<FONT 
  face="Times New Roman">(</FONT>也就是说，当程序很笨但是你很聪明时，这个方法最有用。<FONT 
  face="Times New Roman">)</FONT> 
  <DT>　 
  <DT>　　不需要人工干预的方法有： 
  <DT>　 
  <DT><STRONG>　　</STRONG><FONT face="Times New Roman"><STRONG>(4) 
  </STRONG></FONT><STRONG>爬山法</STRONG><FONT 
  face="Times New Roman"><STRONG>(Hill-Climbing)</STRONG></FONT><STRONG>。</STRONG>类似于交手法，每次对权重作很小的改变，测试改变后的表现，仅当成绩提高时才采纳这个改变，需要重复很多次。这个方法看上去很慢，并且只能找到“局部最优”的组合<FONT 
  face="Times New Roman">(</FONT>即评价可能很差，但是任何很小的改变都会使评价更差<FONT 
  face="Times New Roman">)</FONT>。 
  <DT>　 
  <DT><STRONG>　　</STRONG><FONT face="Times New Roman"><STRONG>(5) 
  </STRONG></FONT><STRONG>模拟退火法</STRONG><FONT 
  face="Times New Roman"><STRONG>(Simulated 
  Annealing)</STRONG></FONT><STRONG>。</STRONG>类似于爬山法，也是对权重做改变来提高成绩的。但是如果改变没有提高成绩，有时候<FONT 
  face="Times New Roman">(</FONT>随机地，给定一个几率<FONT 
  face="Times New Roman">)</FONT>也采纳改变，试图跳出全局最优。这个方法需要给定一些几率，从几率高、梯度大的条件开始，然后逐渐减小。模拟退火法比爬山法更慢，但是最终可能得到比较好的值。 

  <DT>　 
  <DT><STRONG>　　</STRONG><FONT face="Times New Roman"><STRONG>(6) 
  </STRONG></FONT><STRONG>遗传算法</STRONG><FONT 
  face="Times New Roman"><STRONG>(Genetic 
  Algorithms)</STRONG></FONT><STRONG>。</STRONG>爬山法和模拟退火法可以得到一组好的权重，它们是逐渐变化的。相反，遗传算法可以得到几组不同的好的权重，不断增加新的组合跟原来的做比较<FONT 
  face="Times New Roman">(</FONT>取用某组中的某个权重，另一组中的另一个权重，互相交换得到新的<FONT 
  face="Times New Roman">)</FONT>，通过淘汰坏的组合来控制种群的数量。 
  <DT>　 
  <DT><STRONG>　　</STRONG><FONT face="Times New Roman"><STRONG>(7) 
  </STRONG></FONT><STRONG>神经网络</STRONG><FONT 
  face="Times New Roman"><STRONG>(Neural 
  Networks)</STRONG></FONT><STRONG>。</STRONG>实际上这更多地是一种评价函数的类型，而不是用来选择权重的：神经元是阈值<FONT 
  face="Times New Roman">(</FONT>输入权重的和<FONT 
  face="Times New Roman">)</FONT>的函数，第一层神经元输入的关于局面的性质<FONT 
  face="Times New Roman">(</FONT>例如位棋盘表示中的某几个位<FONT 
  face="Times New Roman">)</FONT>就可以构造网络，然后前一层的结果输入到后一层。因此单输入神经元的单层网络就等同于我们上次讨论过的一阶评价函数，但是接下来就可以构造更复杂的神经网络了，而且用这种方法作为评价函数是不难的<FONT 
  face="Times New Roman">(</FONT>只要根据输入的改变来重新计算神经元的输出就可以了<FONT 
  face="Times New Roman">)</FONT>。问题仍然像前面所说的，如何设置权重？除了前面的方法外，针对神经网络还发展出一些方法，例如“暂时差别学习”<FONT 
  face="Times New Roman">(Temporal Difference 
  Learning)</FONT>。其基本思想是确定网络何时会作出坏的评价，并且让每个权重增加或减小看是否会评价得更好，这很类似于爬山法。跟其他自动学习的方法相比，神经网络的好处就在于它不需要很多人类的智慧：你不需要懂得太多的棋类知识，就可以让程序有个比较好的评价函数。但是根据目前我们掌握的情况，根据自己的智慧来做评价函数，要比机器学习做得好，并且做得快。 

  <DT>　 
  <DT>　　这些方法都需要依靠一些自动化的技术，以便对程序的性能进行评估： 
  <DT>　　<FONT face="Times New Roman">(1) </FONT>我们可以用程序处理大量的测试局面<FONT 
  face="Times New Roman">(</FONT>比如人类棋手的高质量对局中提取的局面<FONT 
  face="Times New Roman">)</FONT>并且看它是否得到正确的结果。 
  <DT>　　<FONT face="Times New Roman">(2) </FONT>我们可以让程序对阵一些著名的对手<FONT 
  face="Times New Roman">(</FONT>比如其他程序<FONT 
  face="Times New Roman">)</FONT>来看它能赢几盘。或者我们可以让程序和它自己对阵，以及和它自己的其他版本对阵，例如在爬山法中，用修改过的版本对阵没修改过的版本。这个方法有自身的缺点，除非系统中增加一些随机因素，否则两个程序每次会下出一样的棋，因此你只是看到一局棋的结果而无法代表全部比赛。一个合适的方法就是拿一组测试局面，从每个局面开始就可以下出不同的棋。 

  <DT>　　<FONT face="Times New Roman">(3) 
  </FONT>我们可以比较两个结果，一个用评价函数得到，另一个用评价和搜索相结合得到。如果评价是好的，那么两者应该接近，但是反过来说行吗？ 
  <DT>　 
  <DT>　　那么如何来自动掌握评价中的权重呢？可以参考<FONT face="Times New Roman">Jay Scott</FONT>的“<A 
  href="http://satirist.org/learn-game/" 
  target=_blank>博弈中的机器学习</A>”这个网站。他列举了两个实验方法，我认为比较有趣： 
  <DT>　　<FONT face="Times New Roman">(1) John 
  Stanback(</FONT>著名的商业国际象棋程序设计师<FONT 
  face="Times New Roman">)</FONT>尝试用遗传算法来设置他的程序<FONT 
  face="Times New Roman">Zarkov</FONT>中评价函数的权重组合。他只测试了<FONT 
  face="Times New Roman">2000-3000</FONT>局，我认为太少，得到的值还不错，但是仍然比手工调整的差。这个例子可以看出遗传算法确实有效，但是需要遗传很多代，或者有一个好的权重组合作为祖先。 

  <DT>　　<FONT face="Times New Roman">(2) Risto 
  Miikkulainen</FONT>，是得克萨斯大学里遗传算法的研究员，他曾经针对黑白棋的实验做了个报告。他用遗传算法来调整神经网络型评价函数中的权重。评价网络通过对阵固定程序来建立，如果这个固定程序下棋是随机的，那么神经网络会以棋子<FONT 
  face="Times New Roman">-</FONT>格子数组的形式掌握评价<FONT 
  face="Times New Roman">(</FONT>棋子在角上是好的，在角的邻近格子上是坏的，等等<FONT 
  face="Times New Roman">)</FONT>，直到它一直能赢了才停止学习。然后对阵一个浅的搜索结合棋子<FONT 
  face="Times New Roman">-</FONT>格子数组的程序，它最终<FONT 
  face="Times New Roman">(</FONT>通过几个星期的计算<FONT 
  face="Times New Roman">)</FONT>学会了基于机动性的策略。但是如果对手已经是很聪明的基于激动性的程序，那么它始终会输并且不会学习。这个例子可以看出，要进行学习就必须对阵水平相当的程序，例如在遗传算法的同一个种群里，让两个不同的评价的程序进行对阵，也可以让某个程序对阵不同棋力的对手。 

  <DT>　 
  <DT>　　原文：<A href="http://www.ics.uci.edu/~eppstein/180a/970415.html" 
  target=_blank><FONT 
  face="Times New Roman">http://www.ics.uci.edu/~eppstein/180a/970415.html</FONT></A> 

  <DT>　　译者：黄晨 <FONT face="Times New Roman">(</FONT><A 
  href="mailto:webmaster@elephantbase.net"><FONT 
  face="Times New Roman">webmaster@elephantbase.net</FONT></A><FONT 
  face="Times New Roman">)</FONT> 
  <DT>　　类型：全译 </DT></DL>
<DIR>
<LI>上一篇　<A 
href="http://www.elephantbase.net/computer/evalue_intro1.htm">局面评估函数——简介<FONT 
face="Times New Roman">(</FONT>一<FONT face="Times New Roman">)</FONT></A> 
<LI>下一篇　<A 
href="http://www.elephantbase.net/computer/other_winning.htm">其他策略——胜利局面</A> 
<LI>返　回　<A href="http://www.elephantbase.net/computer.htm">象棋百科全书——电脑象棋</A> 
</LI></DIR>
<DIV align=center>
<CENTER>
<TABLE border=0>
  <TBODY>
  <TR>
    <TD>
      <P align=center><A href="http://www.elephantbase.net/" target=_blank><IMG 
      height=31 src="局面评估函数——简介(二)_files/elephantbase.gif" width=88 
      border=0></A></P></TD></TR>
  <TR>
    <TD><A href="http://www.elephantbase.net/" target=_blank><FONT face=Arial 
      size=2><STRONG>www.elephantbase.net</STRONG></FONT></A></TD></TR></TBODY></TABLE></CENTER></DIV></BODY></HTML>
局面评估函数——简介(二).htm - 源码说明

本页面展示了「象棋程序设计全资料集(介绍编写象棋程序的方法思路）」中的局面评估函数——简介(二).htm 源码文件，采用 HTM 编程语言编写，共 171 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。
虫虫开发者社区收录了大量与程序设计相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。
⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?