生物信息数据库(数据库)
时间:2022-11-09 14:30:02 | 来源:信息时代
时间:2022-11-09 14:30:02 来源:信息时代
生物信息数据库 : 应用信息科学的技术与方法收集和管理生物分子数据所建立的数据库。目前,国际上已经建立起许多生物信息数据库,这些数据库由专门的机构建立和维护,负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具。数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
生物信息数据库具有如下特征:
(1)数据库的更新速度不断加快,数据量呈指数增长趋势。2003年4月宣告完成的人类基因组计划测出30亿个碱基对(bp)的核苷酸排列顺序。
(2)数据库的种类多样化。生物信息学各类数据库几乎覆盖了生命科学的各个领域。
(3)数据库的复杂性增加、层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库直接交联。
(4)数据库的使用已高度计算机化和网络化。几乎所有的数据库都可以在国际互联网上访问,并且公共数据库之间相互链接。
(5)面向应用。各个数据库服务器除了提供数据,还提供许多分析工具。此外,在原始数据库的基础上还开发了许多面向特殊应用的二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。
1. 生物信息数据库分类
一般而言,生物信息数据库可以分为一次数据库(primary database)和二次数据库(secondary database),如图1所示。
图1 生物信息数据库
一次数据库一般由国家或国际组织建立和维护,其数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。一次数据库根据其内容,又可分为基因组数据库,核酸和蛋白质一级结构序列数据库和生物大分子(主要是蛋白质)三维空间结构数据库。比较著名的核酸序列数据库有GenBank、EMBL和DDBJ等。蛋白质序列数据库有PIR和SWISS-PROT。蛋白质结构数据库有PDB等。这些数据库是分子生物信息学的基本数据资源,又称为基本数据库或初始数据库。
二次数据库是对原始生物信息数据进行分析、整理、归纳的结果,是在一次数据库、实验数据和理论分析的基础上,针对特定的应用目标而构建的具有特殊生物学意义和专门用途的数据库,也称为专业数据库或专门数据库。二次数据库种类繁多,如以核酸数据库、蛋白质序列数据库、具有特殊功能的蛋白质等为基础构建的二次数据库和以三维结构原子坐标为基础构建的数据库等。其中与蛋白质相关的二次数据库比较多。
牛津大学的 《核酸研究》 杂志(Nucleic Acids Research)从2000年开始创建生物信息数据库目录,详细介绍了每年最新版本的各种数据库。2006update中共收录了858个通用和专用数据库以及相关介绍和访问网址,并将这些数据库分为14类。法国生物信息研究中心Infobiogen于1997年建立了数据库目录DBCat,至2006年7月共搜集了511个数据库的名称、内容、数据格式、联系地址和网址等详细信息。DBCat本身也是一个具有一定数据格式的数据库,它按DNA、RNA、蛋白质、遗传图谱、结构、文献等分类,其中大部分数据库是可以免费下载的公用数据库。
2.数据库查询和数据库搜索
生物信息数据库的应用可以分为两个主要方面,即数据库查询(database query)和数据库搜索(database search)。数据库查询也称为数据库检索,是基于正文的查询,指对序列、结构以及各种二次数据库中的注释信息进行关键词、标识符或数据特性的匹配查找,将查询条件以正文的形式提交给查询系统。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列有一定程度相似性的序列或者同源序列。在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。常用的数据库搜索工具有FastA和BLAST。
常用的数据库查询和搜索系统有美国国家生物技术信息中心NCBI开发的生物信息数据库检索系统Entrez和欧洲分子生物学实验室EMBL开发的SRS系统(sequence retrieval system)。