时间:2022-12-15 14:30:01 | 来源:信息时代
时间:2022-12-15 14:30:01 来源:信息时代
蛋白质序列数据库 : 以氨基酸残基顺序为基本内容,并附有注释信息的一种序列数据库。
PIR和SWISS-PROT是创建最早、使用最为广泛的两个蛋白质数据库。1984年,“蛋白质信息资源”(protein information resource,PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。此外还有许多蛋白质序列复合数据库,即把多个一次数据库的数据进行合并,这样,用户可以不必对每个数据库进行查询,而只查询复合数据库。除了众多的一次和复合数据库外,还有许多蛋白质序列二次数据库。用户在使用蛋白质序列数据库时,不能只用其中一个,而必须根据实际情况进行选择。目前主要的蛋白质序列数据库有: UniProt、Swiss-Prot、NCBI Protein database、Prosite蛋白质功能位点数据库和Prints蛋白质序列指纹图谱数据库等。
(1) UniProt国际蛋白质资源库(universal protein resource,http://www.pir.uniprot.org/): 是当前最全面的蛋白质信息目录的汇总。基于信息整合及标准统一的需要,Swiss-Prot,TrEMBL,PIR蛋白质序列数据库的三大巨头联合成立了UniProt。其中The UniProt Knowledgebase (UniProtKB)提供蛋白质序列的广泛知识,包括功能、分类、交叉索引等; The UniProt Reference Clusters (UniRef)将密切相关的序列整合进一个记录,提高搜索速度; The UniProt Archive (UniParc)则是一个全面的档案记录,反映所有蛋白质序列研究的历史。
(2) Swiss-Prot(http://www.expasy.org/sprot): 是一个注释蛋白质序列的数据库,1986年由欧洲生物学实验室(EMBL)和日内瓦大学(瑞士)医学生物化学系合作建立。目前,Swiss-Prot由瑞士生物信息研究所及欧洲生物信息学研究所共同维护。Swiss-Prot提供高质量的数据注释信息,包括对蛋白质功能、结构域、翻译后修饰、突变体等的描述,并保证序列数据的非冗余性。
(3) NCBI Protein database(BCNI)美国国家生物技术信息中心蛋白质序列数据库(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Protein): NCBI Entrez包括各种来源的蛋白序列,其中有Swissprot、PIR、Protein Research Foundation(蛋白质研究奖励会注: 日文)、PDB(蛋白质资料库)中的蛋白序列数据,还有从GenBank和RefSeq数据库中已注释的编码区通过计算机翻译出来的蛋白序列。NCBI Protein database的序列记录都有各类链接信息,包括预先计算的蛋白BLAST比对结果、蛋白质结构、蛋白质保守结构域、相应核苷酸序列、基因组、基因等。
(4) Prosite蛋白质功能位点数据库(http://www.expasy.org/prosite/): 是瑞士生物信息学研究所创建的蛋白模式数据库,可以根据酶的催化位点、配体结合位点等位点和蛋白质序列模式(Pattern)或序列模体(Motif)信息,快速、可靠地鉴别一个未知功能的蛋白质序列属于哪一个蛋白质家族。特别是在同源性蛋白变异较大时,未知蛋白与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过Prosite的搜索找到隐含的功能序列模体。为提高蛋白同源性检索的敏感性,Prosite还收录了用于多序列比对的(Profile)序列谱,能更敏感地发现序列之间的相似性。
(5) Prints 蛋白质序列指纹图谱数据库(http://umber.sbs.man.ac.uk/dbbrowser/PRINTS): 是基于单个序列模式构建的数据库。序列分析研究发现,蛋白质家族的特性是由几个保守的序列模式共同决定,因此伦敦大学的生物化学和分子生物学系联合创建了Prints数据库。1999年起该库改由曼彻斯特大学生物信息学教研室维护,目的在于通过收集蛋白家族中所有的序列模式,以提高对一个蛋白鉴别的分辨力。