[转移贴]生物信息学：生物实验数据和计算技术结合的...

hantavirus · 发表于 2015-6-12 15:06:43

原始贴由我容易吗我发表于 2007-9-10 17:15 旧服务器地址： http://biosky.haotui.com/thread-373-1-10.html

生物信息学：生物实验数据和计算技术结合的新领域

欧阳曙光贺福初：生物信息学：生物实验数据和计算技术结合的新领域
　　大量的蛋白质和核酸数据的积累与理性地分析这些数据中所蕴涵的生物学意义的双重需要，产生了综合生物学研究与计算技术研究等领域最新成果的交叉性学科“生物信息学”。

　　概述

　　蛋白质与核酸测序技术应用以来，已积累了极大量数据。同时，基于典型西方哲学演绎与解析的分析思路而建立的组合化学数据库已经成为合理分子设计(ra-tional molecular esign)的重要支柱，为创造全新的非自然产物提供了可能。所以，将新颖的计算技术与方法应用于经验和理论生物学研究的时代已经到来，生物信息学由此诞生。但生物数据的海量性和复杂性又都是组合化学等其他数据密集型科学所不及的，这也是生物信息学所面临的更大挑战。

　　一般意义上，生物信息学研究生物信息的采集、处理、存储、传布、分析和解释等各个方面，它通过综合数学、计算机科学与工程和生物学的工具与技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。它作为一个交叉学科领域而荟萃了数学、统计学、计算机科学和分子生物学的科学家，目标就是要发展和利用先进的计算技术解决生物学难题。这里所说的计算技术至少包括机器学习(machine learning)、模式识别(pattern recognition)、知识重现(knowledge representation)、数据库、组合学(combinatorics)、随机模型(stochastic modeling)、字符串和图形算法、语言学方法、机器人学(robotics)、局限条件下的最适推演(constraint satisfaction)和并行计算等。而生物学方面的研究对象覆盖了分子结构、基因组学、分子序列分析、进化和种系发生、代谢途径、调节网络等诸多方面。

　　许多研究与发展组织都预测：基因组学研究将会彻底革新未来鉴定生物学产物和选择更佳目标用于小分子生物功能筛选的过程。随着基因组研究规模扩大，生物信息学将原始序列数据转换为有意义的生物学信息的重要性也随之增长。

　　生物信息学各个分支都亟待改进和提高的3个方面是：更加有效地处理大规模的数据、建立通用的智能型工具、使所有的操作程序自动化。

　　生物信息数据库

　　目前，国际性合作的几个基因组计划已经积累了超大量的生物信息并以不同组织形式构成许多数据库。其中一些属于商业数据库需要预先注册和付费才能检索，而更多数据库是公开和免费的并可通过互联网络(Internet)访问。随着研究深入，公共数据库越来越成为世界各地生物学家的重要给养。

　　美国国家实验室(Brookhaven National Lab-oratory, BNL)的蛋白质数据库(Protein data bank, PDB)可同时提供蛋白质序列及其三维空间晶体学原子坐标。

　　超文本版本的细胞系数据库(Hypertext ver-sion of the cell line data base, HyperCLDB)专门提供欧洲各家实验室和捐献站的人和动物细胞系的信息，已有3100种以上的品系。

　　OWL混合蛋白质序列数据库(Composite protein sequences databas-es)是一非重复蛋白质序列数据库。

　　欧洲分子生物学实验室(European Molecular Biology Laboratory, EM-BL)的TREMBL是对Swiss-Prot蛋白质序列数据库的增补，含有EMBL核酸序列数据库中尚未出现于Swiss-Prot的所有编码区(CDS)的翻译序列，可以看作是Swiss-Prot 的前言部分，今后都可能升级到标准Swiss-Prot 中。

　　与生物催化和生物降解相关的数据库站点UM-BBD，即Minnesota大学生物催化和生物降解数据库(University of minnesota biocataly-sis/biodegradation database），提供关于微生物酶与代谢通路的信息；Eco-Cyc，即大肠杆菌基因和代谢百科全书(Encyclo-pedia of Escherichia coli Genes and Metabolism)，是一个汇集了所有已知的关于大肠杆菌基因和中间代谢的数据的大型知识库；GenoBase Selkov EMP，是GenoBase数据库通道(GenoBase Database Gateway)中一个经过索引的、关于酶与代谢通路(Enzymes and Metabolic Pathways)的数据；KEGG，日本的基因和基因组京都百科全书(Kyoto Encyclopedia of Genes and Genomes)，内容包括代谢通路图谱、分子编目表、基因编目表、基因组图谱等数据；Swiss-Prot，是带有注释的、具有最小冗余的、与其他数据库的整合度很高的蛋白质序列数据库； WIT (What is there)，是一个基于最近的关于细菌全基因组序列的足够了解、在WWW上设计实现的交互式代谢重构模型。

　　基因组导航者(Genome navigator)是提供到达含有关于人类基因组、鼠基因组和酵母基因组等的物理图谱和遗传图谱信息的主要数据库的视化的交互式通道。它使用基于Java小控件(applet)的通用性程序DerBrowser来显示和导引这些生物的多种不同类型的基因组图谱。

　　IUBio档案是一个生物数据和软件的档案库，囊括了各种各样的大众化的浏览、检索和传输软件、分子数据、生物学新闻和文件，其互联网地址是iubio.bio.in-diana.edu (magpie 129.79.225.200) 。

　　生物计算

　　就目前的数学和计算机科学的能力而言，对数据容量达到上十亿字节的数据库进行生物计算仍然是一项很艰巨的任务。理论上有希望的、通过量子化学算法预测蛋白质的空间折叠的方法靠现有的计算能力尚无法成为现实, 因此需要数学与纯计算机效能上的新突破。

　　大分子设计和模建算法让曾经致力于分子力学和分子模型构建的应用数学家、物理学家、化学家和生物学家走到了一起。现在的重点和挑战在于如何获得高增益、高效率、高可信度的蛋白质、核酸和多聚体的模拟算法。

　　分子图形和模型学是生物信息学和药物设计的重要部分。

　　先是可在本地的个人机或工作站上运行的生物计算软件和程序，下一部分侧重于通过互联网络的在线计算。

　　日常数据维护，为生命科学研究人员实现全方位计算能力的软件工具Prophet 5.0，提供适合于数据管理和视化、包括从简单描述性的统计处理到多元方差分析(Multi-factor ANOVA)，logistic回归和非线性模型分析等多种统计分析。

　　序列对齐，基于“近似字符串匹配(Approxi-mate string matching)”算法的Cleanup 1.8能够确定从核苷酸序列数据库中指定的任何一对序列间的整体同源性，并自动从冗余数据库中生成一组纯化的无冗余的核苷酸序列集萃。

hantavirus · 发表于 2015-6-12 15:08:35

这是本版最早期的贴子，有图有真相。

		自动登录	找回密码
密码			立即注册