📄 04.htm
字号:
2003年人类基因组计划的完成才真正标志着“生命科学世纪”辉煌时期的到
来。
<font color=green><b>从低分辨率到高分辨率</b></font>
人类基因组计划的所有目标中,绘制一幅详细的基因组图是其核心内容。
为了更加方便而有效地绘制这张DNA图,科学家采用的是由粗到精,由框架
到具体这样一个精密度逐步提高的方法。
我们不妨设想你正在月球上,要用手里的一台天文望远镜绘制出一幅地球
表面全貌的详图。
你如果急于求成,把望远镜调到高倍,举镜一望,或许会直接就发现了位
于浦东的东方明珠电视塔。然而由于倍数很高,你的视野里也只有这一个电视
塔而已。你根本无法把你所看到的东方明珠电视塔在正待绘制的地图上标出确
切的位置。你所得到的唯一收获便是地球上有一个塔,至于这座塔的位置信息
仍旧一无所知。不过,你应当还有一个收获,认识到一个亘古不变的真理:一
口吃不成胖子。
于是,我们应该进行调整,采用一种以合理速度吃成胖子的方法。
首先你把望远镜的倍数调到低倍,然后遥望地球,这时会看到整个地球的
概貌:一个蓝色球形的天体。你可以分辨出地球表面占2/3面积的海洋,以及
亚欧大陆,美洲大陆,南极洲等等,你也许还能看到大陆上一些巨大的山脉河
流。这时,你所描绘的是分辨率极低的一张地球概貌图。
不要小看这张地图,因为它为你今后绘制详图提供了最基本而重要的框
架。接下来,你把图中的地球分成若干部分,然后分别在每一部分添加细节。
还有一点要注意的是,你应该在图中找出一些具有独特性的物体作为标
记。比如,在低分辨率的地图上就可以比较清晰地看到长城,并且中国以外的
其他地方都找不到第二座类似的建筑,因此长城就是一个理想的标记。这种标
记的作用是显而易见的,在以后的作图过程中,你如果发现某某建筑在长城附
近,那么你就可以迅速明确该建筑的位置。
接下来你适当地提高手里望远镜的放大倍数, 把视野聚焦到这块有长城、
长江的大陆上来,这时,你将得到关于地球表面这一局部的更多细节,看到了
太湖、泰山等等。标出太湖在地球表面的位置后,再进一步聚焦至以太湖为中
心的长江三角洲。随着放大倍数的逐步提高,分辨率不断增强,最后就可以把
位于长江三角洲地区的大小城市、河流、山川详尽且准确的在地图上绘制出
来。
采用同样的方法,你能够把地球上任何一个局部的细节准确无误地在地图
上绘制,更重要的是,不会搞错它们在地球上的位置。
采用这种方法绘制地球地图,其任务的艰巨性与复杂性一定已经让你望而
生畏,实际上,人类基因组研究任务之艰巨较之有过之而无不及。仅仅设想一
下,如果把人类基因组30亿个碱基用肉眼可辨大小的字体印出来,其篇幅就相
当于13套大英百科全书!
我之所以把绘制地球详图这样一个看似与人类基因组计划无关的问题解释
得这样详尽,无非是因为绘制人类基因组图谱和上述过程采用的是完全相似的
思想方法: 应用标记定位,从低分辨率到高分辨率。
<font color=green><b>基因组,揭开你的盖头来 </b></font>
由于人类基因组计划的任务极其艰巨,美国能源部和国立卫生研究院制定
了先作图,后测序的二期计划。之所以这样做,是因为测序必然先要以有序的
标记作为导引,并且在90年代初期,测序技术无论就速度还是价格而言都远远
不能适应人类基因组测序的要求,人们希望后期测序技术能够取得质的创新与
突破。因此,从总体上来说,先作图后测序的规划仍然遵循的是由粗到精,由
低分辨率到高分辨率的思想方法。
在人类基因组计划的作图中,有一种较为特殊的作图方法,称之为遗传连
锁图,说它特殊,是因为连锁图所表示的并不是实际的物理位置,而只是各基
因彼此之间的相对位置。由于绘制遗传连锁图并不需要多么高明的生物技术作
为后盾,而更多依赖于对家族遗传模式进行辛苦的分析。因此,绘制连锁图的
历史悠久。通过遗传连锁图,遗传学家在即使不知道遗传疾病的分子机理的情
况下也能够准确地找到不少遗传病基因在染色体上的相对位置。
而物理图则与遗传连锁图不同,在一幅物理图上,标记之间的距离并非用
相对遗传距离来表示,而是用DNA上实际的物理距离——碱基对(bp)表
示。也就是说,物理图是各种DNA标记在DNA片段上的实际排列图。
物理图就某种意义上来说很类似于我们日常使用的交通地图,正如有的地
图只标出了寥寥几个大城市和一些交通要道,而有的地图则详不胜详地列出各
个级别的城市乡镇甚至一些羊肠小道一样,低分辨率的物理图也仅仅标出那些
在染色体上最为显著的标记,而高分辨率的物理图上标记密度就要密得多。
分辨率最低的物理图就是染色体图,这是用一种特殊的染色剂使染色体显
现出明暗相间的条纹。再结合染色体本身的一些结构特征,就多少可以把一个
基因粗略地定位于某个染色体段上,但这种分辨率就好像仅仅把金字塔定位于
非洲,这种精度是远远无法满足基因时代的要求的。
为了提高分辨率,人们开始使用一种叫做原位杂交的手段,这种方法的原
理甚为简单。在实验室里预先制备一些与染色体上某段DNA相互补的DNA片
段,并且用荧光染色,由于这些DNA片段是用来在染色体上钓基因的,因此
可形象地称其为探针。这些探针将只与染色体DNA上互补的片段结合,或称
做杂交。
不妨假设我们要寻找基因A的位置,释放一个能够与染色体上一已知位置
的标记进行杂交的探针,另外再释放基因A的探针,由于整条染色体上只有这
两个位置因杂交了探针而发出荧光,这样我们就可以较为准确地寻找到基因A
在染色体上所处的狭小区域。
但即便如此,依赖这种原位杂交方法绘制的物理图仍然非常粗糙。因为只
有在这两个荧光标签距离至少达200万至500万个碱基对时,两个荧光点才能
被区分开来。
幸好在一些功能强大的分子武器以及先进的计算机等工具的帮助下,物理
图分辨率得以进一步提高。
例如一种常用的分子武器是限制性内切酶,它就像一把锋利的刀,可以把
一条完整的DNA分子在特定位置上切割开来。限制性内切酶能够识别一段短
的DNA序列,然后在这些位点上进行切割。例如一种常用的限制性内切酶
EcoRⅠ,它会识别DNA序列GAATTC,并在一条长长的DNA双螺旋分子上选
择所有具有这一顺序的位点切割。目前已有上百种限制性内切酶,分别识别不
同的碱基序列。因此一个DNA分子可以分别被各种类型的分子刀分割成许多
长短不一的片段。
此外,像重组DNA和PCR这些技术问世以来均极大地推动了现代生命科
学的发展,借助这些手段,物理图的分辨率得到大幅度的提高。
以上所有的工作,从连锁图到物理图,分辨率从低到高,都是为了人类基
因组计划的最终目的:测定30亿个碱基对的核苷酸序列。这其中自然包括测定
所有基因的核苷酸序列,以及那些目前功能尚不十分明了的那部分DNA序列
(这部分DNA很可能在基因表达调控方面起到至关重要的作用)。
DNA测序是一项极具挑战性的工作。在人类基因组计划启动之初,平均测
序一个碱基对需要花费2~10美元,而一个训练有素的研究者一年可以精确地
测序20000到50000个碱基对序列。按照这样的技术水平,如果要在2005年完
成基因组计划,就需要花至少200亿美元以及一支由5000精英组成的工作队伍
夜以继日地测序。
但任何事物都不应以单纯静态的眼光来对待,对于像生命科学这样一个正
处于飞速发展时期的领域更是如此。
当然,每一次进步,每一次动态的发展,都是研究人员努力探索的结果。
为了使DNA测序在时间与经济上切实可行,科学家自人类基因组计划一开
始,就一直在致力于提高基因组作图和测序的技术水平。迄今为止,测序的大
部分过程已经实现了高速自动化,检测每个碱基对的花费也降到了1美元以
下。原本到2005年也难以实现的计划目前已决定提前至2003年全部完成,而
Celera公司更是宣称他们将在2001年就完成基因组计划。姑且不论Celera公司
究竟能否兑现其信誓旦旦的诺言,但有一点是可以肯定的,由于技术能力的提
高,人类基因组计划的完成近在咫尺。
<font color=green><b>任重而道远</b></font>
但即使完成人类基因组的测序工作也只是万里长征走完的第一步,10万个
结构基因只占人类整个基因组序列的5%左右,在庞大的基因组中寻找基因,研
究基因的功能以及它们的调控方式是一件更加艰巨而充满挑战性的任务。
研究家族系谱在寻找一些基因时显得特别有用。如在某个家族中,糖尿病
的发病率较普通人群显著增高,分析比较这个家族中各个成员的DNA,搜寻到
一段仅在所有患者中才出现的特殊DNA序列,借助这一标记就可能寻找到糖
尿病的致病基因。
同时,凭借一些猎取基因的计算机程序如GRAIL,能够在现有的碱基数据
中鉴定可能的基因。因为基因组中的编码区和非编码区有很多差别,如利用某
段DNA序列出现的频率,基因边界附近特定的标记等等,GRAIL就借助这些
特征从碱基序列的数据库中鉴别可能的基因。
说到这里,不得不提及一门新兴的学科:生物信息学。随着基因组计划的
飞速进展,序列数据库里的数据正在呈指数级速度增长,如何有条理地储存、
组织乃至分析这些数据成了当务之急。一门崭新的交叉学科——生物信息学便
应运而生了。
生物信息学所涉及的范围甚广,最为简单的任务包括收集整理以及维护生
物信息的数据库。所测得的所有碱基对顺序以及由此引出的蛋白质序列构成这
个数据库的主体,如何管理好这样一个庞大而且还在不断递增的数据库显得尤
为重要,同时还应设计一个直观清晰的操作界面和方便快捷的存取方式,使得
位于世界各地的研究者都可以迅速有效地获取自己需要的信息。
虽然要出色地完成这样的工作已着实不易,但这还只是生物信息学家小试
牛刀,因为这些数据如果得不到进一步有效合理的分析,就如同我们收到那些
充满乱码的文章一样一文不值。一段DNA序列并不等同于一个基因,它可能
仅仅是基因的部分,也可能包含有好几个不同基因。不过好在由于进化的同源
性,各种基因往往都含有一些类似的片段。基于这个事实,使得生物信息学家
可以有效地参与到“猎取基因”的活动中来。
但即使寻找到这些基因,工作还远未结束,对于生物信息学家来说,还有
另一项更为重要的任务就是研究基因的功能。根据基因序列推测其表达的产
物,然后根据氨基酸顺序推测这个蛋白质的空间构形和功能。
信息科学在生命科学领域的介入大大加速了人类基因组计划的进程,并且
为研究基因功能提供了强有力的预测工具。</font></pre>
</td></tr></table></td></tr></table></div>
<center><font class=p3 color=lightseagreen><a href="http://www.myscience.com.cn">【三思言论集】</a> 欢迎给制作人来信:<font face="arial"><a href="mailto:jasper_uk@sina.com">jasper_uk@sina.com</a></font></center>
</body>
</html>
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -