16.txt

来自「This complete matlab for neural network」· 文本代码 · 共 107 行
TXT
107 行
发信人: GzLi (笑梨), 信区: DataMining
标  题: 生物信息学 zz
发信站: 南京大学小百合站 (Sat Dec  7 09:43:01 2002), 站内信件


生物信息学介绍


生物信息学的现状与展望（The Current Status and The Prospect of Bioinformatics）


中国科学院院士 张春霆


(天津大学生命科学与工程研究院 天津300072) 

摘 要: 
本文阐述了生物信息学产生的背景，生物学数据库，生物信息学的主要研究内容，与生物
信息学关系密切的数学和计算机科学技术领域，生物信息学产业等内容，展望了其未来并
提出了若干在我国发展生物信息学的建议。着重指出，理解大量生物学数据所包括的生物
学意义已成为后基因组
时代极其重要的课题。生物信息学的作用将日益重要。有理由认为，今日生物学数据的巨
大积累将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶
段。因此，这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。 
关键词：人类基因组计划 生物信息学 




生物信息学产生的背景

有人说，基于序列的生物学时代已经到来，尽管对"序列生物学"这一提法可能有所争议，
但是今日像潮水般涌现的序列信息却是无可争辩的事实。自从1990年美国启动人类基因组
计划以来，人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的
全基因组测序工作，人
基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日，被誉为生命"阿波罗计
划"的人类基因组计划，经过美、英、日、法、德和中国科学家的艰苦努力，终于完成了
工作草图，这是人类科学世上又一个里程碑式的事件。它预示着完成人类基因组计划已经
指日可待。截止目前为止
，仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。在人类基因组计划进
行过程中所积累起来的技术和经验，使得其它生物基因组的测序工作可以完成得更快捷。
可以预计，今后DNA序列数据的增长将更为惊人。生物学数据的积累并不仅仅表现在DNA序
列方面，与其同步的还
有蛋白质的一级结构，即氨基酸序列的增长。此外，迄今为止，已有一万多种蛋白质的空
间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的EST数据库其纪录已达数
百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生
物学数据的海洋。可以打
一个比方来说明这些数据的规模。有人估计，人类（包括已经去世的和仍然在世的）所说
过的话的信息总量约为5唉字节（1唉字节等于1018字节）。而如今生物学数据信息总量已
接近甚至超过此数量级。这种科学数据的急速和海量积累，在人类的科学研究历史中是空
前的。
数据并不等于信息和知识，但却是信息和知识的源泉，关键在于如何从中挖掘它们。与正
在以指数方式增长的生物学数据相比，人类相关知识的增长（粗略地用每年发表的生物、
医学论文数来代表）却十分缓慢。一方面是巨量的数据；另一方面是我们在医学、药物、
农业和环保等方面对新
知识的渴求，这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极
大的矛盾。这个矛盾就催生了一门新兴的交叉科学，这就是生物信息学。美国人类基因组
计划实施五年后的总结报告中，对生物信息学作了以下定义：生物信息学是一门交叉科学
，它包含了生物信息的
获取、处理、存储、分发、分析和解释等在内的所有方面，它综合运用数学、计算机科学
和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义。生物信息学这一名词
的出现仅仅是几年前的事情，但是计算生物学这一名词的出现要早的多。鉴于这两门学科
之间并没有或难以界定
严格的分界线，在这里统称为生物信息学。 

生物学数据库

《Nucleic Acids 
Research》杂志连续七年在其每年的第一期中详细介绍最新版本的各种数据库。在2000年
1月1日出版的28卷第一期中详细地介绍了115种通用和专用数据库，包括其详尽描述和访
问网址。迄今为止，生物学数据库总数已达500个以上。在DNA序列方面有GenBank、EMBL
和DDBJ等。在蛋白质一级
结构方面有SWISS-PROT、PIR和MIPS等。在蛋白质和其它生物大分子的结构方面有PDB等。
在蛋白质结构分类方面有SCOP和CATH等。应该指出，几乎所有这些数据库对学术研究部门
或人员来说都是免费的，可以免费下载或提供免费服务。但是鉴于相当多的数据库的经营
者们面临着财务紧缺的
境地，这种免费的局面还能维持多久就不得而知了。有的数据库，如SWISS-PROT，已开始
向商业用户每年收取数千至数万美元不等的使用费。其它数据库暂时还是免费的，但不知
是否永远免费。如果一些重要的数据库对学术研究部门开始收费，这对于我国生物信息学
的发展是非常不利的。
中国是一个基因信息资源大国，我们应当抓紧建设我国自有的数据库，在世界上做出我们
自己的贡献，在平等的基础上与国外共享生物信息资源。 

生物信息学的主要研究内容

生物信息学主要包括以下几个主要研究领域，但是限于篇幅，这里仅列出其名称并只做简
单介绍。 

1. 序列比对（Alignment）。

基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的
基础，非常重要。两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的比对
软件包--BALST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应
用。有时两个序列总体
并不很相似，但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法
，缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。

2. 结构比对。

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。

3. 蛋白质结构预测，包括2级和3级结构预测，是最重要的课题之一。

从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测
和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察
和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认（Thr
eading）方法属于这一
16.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 16.txt 源码文件，采用文本编程语言编写，共 107 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。
虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。
⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?