时间:2022-12-27 10:30:01 | 来源:信息时代
时间:2022-12-27 10:30:01 来源:信息时代
基因组数据库 : 生物信息数据库的重要组成部分,由各国基因组研究中心组建,分布在世界各地的信息中心、测序中心、大学和研究机构中。它的主要内容有基因组结构、基因单位、基因型、基因产物、基因组图谱(遗传图、叠连群图、放射杂交图等)。它的主体是模式生物(即基因组计划研究中具有代表性的若干种生物)基因组数据库,其中主要有世界各国人类基因研究中心、测序中心构建的各种人类基因组数据库,以及小鼠、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库和其他多种动植物基因组数据库。目前主要的基因组数据库有GDB、Entrez Genomes、Ensembl、AceDB、SGD、KEGG、EcoGene和GO等。
(1) GDB人类基因组数据库(http://www.gdb.org/): 于1990年建立于美国Johns Hopkins大学,是重要的人类基因组数据库。数据库的主要内容是人类基因组计划所得到的图谱数据。GDB数据库包含的描述信息如下: 人类基因组区域谱、人类基因组图谱和人类基因组差异信息。此外,GDB数据库还包括了与核酸序列数据库GenBank和EMBL、遗传疾病数据库OMIM、生物医学文献引用数据库PubMed等其他网络信息资源的超文本链接。
GDB数据库的数据主要来自于科学文献和各国基因组提交的数据,并经过人类基因组组织(human genome organization,HUGO)命名委员会(HUGO nomenclature committee)和染色体委员会(HUGO chromosome committees)修正。GDB基于Sybase数据库管理系统,包括三个数据库,分别为HGD,Citation和Registry。HGD是GDB中最主要的数据库,遗传信息、与功能相关的结构信息和进化信息都存储在HGD中;Citation存储了文献相关信息,包括文章摘要和Medline编号;Registry是GDB注册用户信息。GDB的另一个显著特点是用面向对象的方式组织和管理数据,GDB的网络应用也是典型的面向对象系统,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并可以图形方式观看基因组图谱。
(2) Entrez Genomes基因组数据库: 是美国国家生物技术信息中心NCBI提供的基因组数据库(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=G enome),收录了1000多个病毒基因组、100多个微生物基因组以及部分真核生物基因组,是目前最大、最完整的一套多生物物种的基因组资源。同时它提供了大量的内部连接,并以尽量简洁的方式将几种遗传图谱、物理图谱、DNA、蛋白质序列信息、三维晶体结构信息以及一个目录型引用数据库有机结合起来,可以作为许多序列检索的起点。该数据库还提供一个基因组数据浏览工具Map Viewer,让用户观看数据库内带有综合遗传和自然图的各种有机体基因组、全部染色体、序列集成数据。
(3) AceDB: 是线虫(C. elegans)基因组数据库(http://www.acedb.org/),它既是一个数据库,又是一个数据库管理系统。AceDB基于面向对象的程序设计技术,是一个灵活通用的数据库系统,可用于其他基因组计划的数据分析。AceDB提供良好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。新开发的WebAce和AceBrowser基于网络浏览器,已经应用于线虫和人类基因组数据库的浏览和搜索。库内资源包括限制性图谱、基因组结构信息、质粒图谱、序列数据、等。
(4) Ensembl:是由欧洲生物信息学研究所(EBI)和英国Sanger中心共同合作开发的一个真核基因组自动注释系统(http://www.ensembl.org/)。Ensembl产生并维护关于各种真核生物基因组的自动注释,如人类基因组、小鼠基因组、果蝇基因组、黑猩猩基因组等。Ensembl主要根据已经测得的基因组序列定位所有已知基因,并预测未知新基因,同时为这些基因提供功能、疾病相关特征等方面的注释信息。此外,Ensembl数据库还提供数据搜索、数据下载、统计分析等服务。
Ensembl的底层是基于MySQL的关系型数据库系统,包括十个数据库,涵盖了从基因组序列到帮助文档的全部信息。Ensembl系统的主体以及数据库接口用Perl编写,部分界面用Java编写。Ensembl提供多种查询方式,如用BLAST进行相似序列的搜索,通过序列号进行查询,通过基因名称查询,以及通过遗传疾病查询等。另一种更直观的方式是显示各染色体,用户可以在染色体水平上选择感兴趣的位点,然后逐层放大,从而浏览整个基因组,分析DNA序列和基因。
(5)基因本体数据库GO(http://www.geneontology.org/): 是由基因本体联盟(gene ontology consortium)开发的基因本体(gene ontology)数据库,其目标是建立关于基因和基因产物的描述以及知识的标准术语,为实现各种与基因相关数据的统一、进行数据转换、开展数据挖掘及数据库集成提供一个标准。GO根据与基因产物相关的生物过程、细胞成分和分子功能提供了三个相对独立的本体,描述基因和基因产物的属性,以及对基因进行注释。GO数据库使用MySQL数据库和Perl对象模型及API来简化数据库访问。
关键词:数据,基因