时间:2022-12-25 16:30:01 | 来源:信息时代
时间:2022-12-25 16:30:01 来源:信息时代
核酸序列数据库 : 分子生物信息数据库中最基本的一种序列数据库,以核苷酸碱基顺序为基本内容,并附有注释信息。
GenBank、EMBL和DDBJ是国际上三大主要核酸序列数据库。根据协议,这三个数据中心各自搜集各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。除了这些核酸一级结构序列数据库外,还有很多建立在它们基础之上的二级数据库。
(1) GenBank核酸数据库(http://www.ncbi.nlm.nih.gov/): 创建于1982年,20世纪90年代后迅速发展。1988年11月美国成立了国立生物技术信息中心(NCBI)。在美国政府的资助下,NCBI迅速成为生物信息学领域的主要推动者。1992年10月,NCBI承担起对GenBank DNA序列数据库的维护责任,同时随着人类及各种模式生物大规模测序工作的展开,其收录的序列迅速增加。目前,GenBanK每两个月发布一次新版本,并且每天都通过匿名FTP提供递增式(以及非递增式)的更新。
GenBank数据库是一个开放的系统,它收录包括任意长度的cDNA片段、单个的外显子、完整的cDNA、任意的基因片段,甚至于包含多个基因的长片段。数据主要来源于个人或大规模测序中心直接递交的数据,也通过美国专利和商标局收集注册专利的序列信息。此外,GenBank每年都对来源于3400种杂志的325000篇文章进行检索,以收集公开发表的序列。它还与EMBL、DDBJ等大型数据库每天相互更新。
GenBank每条记录包含对序列的精确描述、序列来源生物的科学名称及树状分类、参考文献、序列特征表以及序列本身等信息。序列特征表里包含对序列生物学特征的注释,如编码区、转录单元、重复区域、突变位点或修饰位点等。对于每一序列,它还提供与文献数据库MED-LINK中相关参考文献的链接,从而能够获得关于该序列的更进一步的信息。为了便于用户检索,又将所有数据记录按类划分为多个子数据库。
(2) EMBL核酸数据库(http://www.ebi.ac.uk/embl.html): 创建于1980年,目前由欧洲生物信息学研究所(EBI)维护。EBI是EMBL在英国Hinxton的分部,主要负责建立及维护EMBL核酸数据库,并提供核苷酸序列检索及序列相似性查询等服务,近年来发展十分迅速,它与美国的GenBank及日本的DDBJ共同组成全球性的国际DNA数据库。
EMBL的数据格式与GenBank基本相同,不同的是其描述信息的关键词一般以两个字母代替。相对于GenBank,EMBL数据库将真菌及细胞器单独分类,增加了FUN(真菌数据库)、ORG(细胞器数据库)。其数据的递交可通过基于网络的Webin程序,它适宜于单个、多个甚至是大规模序列的递交。同时也可通过基于本地计算机的Sequin程序递交。EMBL数据库提供的另外一个特殊服务是,可通过NCBI提供的Webin-Align程序递交NEXUS、PHYLIP、CLUSTAL、GCG/MSF或SEQUIN/ASN.1格式的多序列比对记录。
(3) DDBJ公共核酸/蛋白质序列数据库(http://www.ddbj.nig.ac.jp): 创立于1986年,收录了所有已知的公共核酸与蛋白质序列数据,作为序列数据库国际合作组织(International Nucleotide Sequence Database Collaboration,INSDC)成员,同时与GenBank和EMBL相互合作,互通有无,同步更新。目前,DDBJ由日本国立遗传学研究所的生物信息中心(CIB/DDBJ)维护。DDBJ数据库的结构与GenBank完全一致。
(4) 中国核酸序列数据库(http://www.cdnap.csdb.cn/): 是中科院上海生科院生物信息中心承担建设的生物科学应用数据库。通过搜集快速增长的国际核酸序列数据,为用户提供核酸序列数据存储、序列检索、序列格式转换、序列比较等服务,同时通过本数据库可对国内各课题组递交的核酸序列进行统计和比较,为了解国内核酸序列情况提供依据。
关键词:数据,序列