时间:2022-11-10 02:30:02 | 来源:信息时代
时间:2022-11-10 02:30:02 来源:信息时代
生物文献挖掘 : 利用数据挖掘技术在大量的生物信息学文献集合中发现隐含的知识的过程。伴随着基因组研究日新月异的快速发展,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。大量的生物学数据是以结构化的形式存在于数据库中,而大量的生物学知识以非结构化的形式被记载在各种文献中。对于研究人员来说,通过手工查找文献来获取相关领域的所有信息,几乎是不可能的。由此,生物信息学文献数据挖掘诞生了。
生物信息学文献挖掘分五个层次逐步进行:
(1)信息检索(information retrieval):是指将信息按一定的方式组织和存储以来,并根据信息用户的需要找出有关信息的过程。由美国国家生物技术信息中心(NCBI)开发的PubMed是一个典型的生物医学信息检索工具。PubMed收录了全世界70个国家和地区的4600余种生物医学期刊,起始时间是1953年,文摘条目1200多万,年报道量近40万条,英文刊物占90%,一周更新一次。检索途径有基本检索、高级检索、限定检索、期刊检索、主题词检索等。PubMed是广泛采用的生物医学信息检索工具之
(2)生物实体识别(biological entity recognition):是从文本集中识别出指定的某类生物实体的名称。例如蛋白质、基因、核糖核酸、脱氧核糖核酸和细胞的名称等。生物实体识别包括两项任务: 一为识别,即找到文本中实体名称的边界; 二为分类,即确定实体名称的语义类别。生物实体识别富有挑战性的主要原因是: 新术语不断出现,命名的复杂性等。目前主要有基于启发式规则的方法、基于统计和机器学习的方法和基于字典的方法。
(3)信息提取(information extraction): 是从一段文本中抽取指定的一类信息并将其形成结构化的数据供用户使用的过程。信息提取与信息检索不同,信息检索只是为了确定文献讨论的主题,而信息提取的目的是提取已经预定义好的事实,特别是两种或多种生物实体之间的关系,如信息提取发现基因与基因、蛋白质与蛋白质间的相互作用。目前用于信息提取的方法主要有两种: “共发生”和自然语言处理。“共发生”方法就是查找文献中“共发生”的生物实体名称,如果两个生物实体名称总是同时出现在同一个句子里,那么极有可能两者是相关的;自然语言处理方法是进一步通过句法分析来判定共发生的基因间的确定关系。信息提取的更深层次的目标是采用各种技术对生物学文献自动化理解和解释文献信息。
(4)文本挖掘(text mining): 是通过自动提取相关信息来发现以前未被发现的知识。文本挖掘与信息提取的不同之处在于信息提取只能提取已经被发现的并被公布出来的知识,而文本挖掘能获得还未被发现的知识,所以说信息提取是文本挖掘的基础。目前生物文本挖掘还处于起步阶段,有待于进一步发展。
(5)数据整合(data integration):是集成生物文献和其他类型数据以便更有利于生物发现。目前数据整合只是针对基因或蛋白质等的功能注解,数据整合是一种最高层次的生物文献挖掘,也是最难以实现的。