📄 第七章.htm
字号:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。</span><span
lang=EN-US><o:p></o:p></span></p>
<p align=center style='text-align:center'><span lang=EN-US><!--[if gte vml 1]><v:shape
id="_x0000_i1039" type="#_x0000_t75" alt="" style='width:373.5pt;height:702.75pt'>
<v:imagedata src="./第七章.files/image003.png" o:href="http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/web/images_7/p7.1.bmp"/>
</v:shape><![endif]--><![if !vml]><img width=498 height=937
src="./第七章.files/image004.jpg" border=0 v:shapes="_x0000_i1039"><![endif]><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>生物信息学的一个基本观点是:分子的结构决定分子的性质和分子的功能。因此,生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是,蛋白质的空间结构又是由什么决定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠后,可以恢复其自然的折叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境,但是,决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢?</span><span
lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>从数学上讲,蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载脂蛋白)的氨基酸个数超过</span><span
lang=EN-US style='font-size:10.0pt'>4500</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。因此,蛋白质结构预测是可能的。<O:P></span><span
style='font-size:10.0pt'> </O:P></span><span lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;mso-bidi-font-size:
8.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法(</span><span lang=EN-US
style='font-size:10.0pt'>Ab initio</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>)</span><span style='font-size:10.0pt;mso-bidi-font-size:
8.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>,通过理论计算(如分子力学、</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>分子动力学</span><span style='font-size:10.0pt;mso-bidi-font-size:
8.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>计算)进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。但是在实际中,这种方法往往不合适。主要有几个原因,一是自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(</span><span
lang=EN-US style='font-size:10.0pt'>1kcal/mol </span><span style='font-size:
10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>数量级),二是蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是一个问题。</span><span
lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;mso-bidi-font-size:
8.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>另一类</span><span style='font-size:10.0pt;font-family:宋体;
mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>蛋白质</span><span
style='font-size:10.0pt;mso-bidi-font-size:8.0pt;font-family:宋体;mso-ascii-font-family:
"Times New Roman";mso-hansi-font-family:"Times New Roman"'>结构预测的方法是统计方法,该类方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。这是进行</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>蛋白质结构预测较为成功的一类方法。</span><span
style='font-size:10.0pt;mso-bidi-font-size:8.0pt;font-family:宋体;mso-ascii-font-family:
"Times New Roman";mso-hansi-font-family:"Times New Roman"'>这一类方法包括经验性方法、结构规律提取方法、</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>同源模型化方法等。</span><span lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;mso-bidi-font-size:
8.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数据库</span><span
lang=EN-US style='font-size:10.0pt'>PDB</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>、蛋白质二级结构数据库</span><span lang=EN-US style='font-size:10.0pt'>DSSP</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>中的蛋白质)进行统计分析,可以发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规则。<O:P></span><span
style='font-size:10.0pt'> </O:P></span><span lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;mso-bidi-font-size:
8.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋白质结构数据库中提取</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>关于</span><span style='font-size:10.0pt;
mso-bidi-font-size:8.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法,如通过视觉观察的方法</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>,基于统计分析和序列多重比对的方法</span><span
style='font-size:10.0pt;mso-bidi-font-size:8.0pt;font-family:宋体;mso-ascii-font-family:
"Times New Roman";mso-hansi-font-family:"Times New Roman"'>,利用人工神经网络提取规律的方法</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>。<O:P></span><span style='font-size:
10.0pt'> </O:P></span><span lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋</span><span
lang=EN-US style='font-size:10.0pt'>-</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>转角</span><span lang=EN-US style='font-size:10.0pt'>-</span><span
style='font-size:10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";
mso-hansi-font-family:"Times New Roman"'>螺旋结构、</span><span lang=EN-US
style='font-size:10.0pt'>DNA</span><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>结合区域等)。其原理基于下述事实:每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说,具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列具有</span><span
lang=EN-US style='font-size:10.0pt'>25</span><span lang=EN-US style='font-size:
10.0pt;font-family:Symbol;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman";mso-char-type:symbol;mso-symbol-font-family:Symbol'><span
style='mso-char-type:symbol;mso-symbol-font-family:Symbol'>~</span></span><span
lang=EN-US style='font-size:10.0pt'>30%</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法。</span><span
lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式,这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测</span><span
lang=EN-US style='font-size:10.0pt'>10</span><span lang=EN-US style='font-size:
10.0pt;font-family:Symbol;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman";mso-char-type:symbol;mso-symbol-font-family:Symbol'><span
style='mso-char-type:symbol;mso-symbol-font-family:Symbol'>~</span></span><span
lang=EN-US style='font-size:10.0pt'>30%</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>蛋白质的结构。然而,许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到</span><span
lang=EN-US style='font-size:10.0pt'>25%</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>。也就是说,具有相似空间结构的蛋白质序列等同程度可能小于</span><span lang=EN-US
style='font-size:10.0pt'>25%</span><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>。这些蛋白质的同源性不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库,并且搜索条件为序列等同程度小于</span><span
lang=EN-US style='font-size:10.0pt'>25%</span><span style='font-size:10.0pt;
font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>的话,那么将会得到大量不相关的蛋白质。因此,搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处理这项任务的技术称为“线索(</span><span
lang=EN-US style='font-size:10.0pt'>THREADING</span><span style='font-size:
10.0pt;font-family:宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:
"Times New Roman"'>)技术”。对于一个未知结构的蛋白质,仅当我们找不到等同序列大于</span><span lang=EN-US
style='font-size:10.0pt'>25%</span><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,就可以利用远程同源建模方法来建立蛋白质的结构模型。</span><span
lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-indent:21.25pt;line-height:150%'><span style='font-size:10.0pt;font-family:
宋体;mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman"'>如果既没有找到一般的同源蛋白质,又没有找到远程同源蛋白质,那么如何进行结构预测呢?一种可行的办法就是充分利用现有数据库中的信息,包括二级结构和空间结构的信息,首先从蛋白质序列预测其二级结构,然后再从二级结构出发,预测蛋白质的空间结构;或者采用从头算方法进行结构预测。</span><span
lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center;text-indent:21.25pt;line-height:150%'><span lang=EN-US><!--[if gte vml 1]><v:shape
id="_x0000_i1040" type="#_x0000_t75" alt="" style='width:388.5pt;height:4in'>
<v:imagedata src="./第七章.files/image005.png" o:href="http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/web/images_7/w7.1-1.bmp"/>
</v:shape><![endif]--><![if !vml]><img width=518 height=384
src="./第七章.files/image006.jpg" border=0 v:shapes="_x0000_i1040"><![endif]><o:p></o:p></span></p>
<p align=right style='text-align:right'><b><span lang=EN-US style='font-size:
18.0pt;font-family:隶书'><!--[if gte vml 1]><v:shape id="_x0000_i1041" type="#_x0000_t75"
alt="" style='width:36pt;height:43.5pt'>
<v:imagedata src="./第七章.files/image007.jpg" o:href="http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/web/images/mytemp1.jpg"/>
</v:shape><![endif]--><![if !vml]><img width=48 height=58
src="./第七章.files/image007.jpg" border=0 v:shapes="_x0000_i1041"><![endif]><a
href="http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/web/Index.html">返回总目录</a></span></b><span
lang=EN-US><o:p></o:p></span></p>
<p align=right style='text-align:right'><span lang=EN-US><!--[if gte vml 1]><v:shape
id="_x0000_i1042" type="#_x0000_t75" alt="" style='width:33.75pt;height:33pt'>
<v:imagedata src="./第七章.files/image008.jpg" o:href="http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/web/images/mytemp2.jpg"/>
</v:shape><![endif]--><![if !vml]><img border=0 width=45 height=44
src="./第七章.files/image008.jpg" v:shapes="_x0000_i1042"><![endif]></span><b><span
lang=EN-US style='font-size:18.0pt;font-family:隶书'><a
href="http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/web/CharpterSeven/#mark1">返回页首
</a></span></b><b><span lang=EN-US style='font-size:18.0pt;mso-ascii-font-family:
隶书;mso-fareast-font-family:隶书'> </span></b><span lang=EN-US><o:p></o:p></span></p>
<p class=MsoNormal><span lang=EN-US><![if !supportEmptyParas]> <![endif]><o:p></o:p></span></p>
<!--mstheme--></div>
</body>
</html>
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -