时间:2022-11-08 20:30:01 | 来源:信息时代
时间:2022-11-08 20:30:01 来源:信息时代
生物数据挖掘 : 针对生物数据进行的数据挖掘。生物数据主要有生物序列数据(包括核酸序列和蛋白质序列)、基因表达数据、蛋白质结构数据、生物文献数据等。目前在国际上总共约有1000多个生物数据库,存放数百TB的生物数据。由于大多数生物数据的含义目前还不为人们所知,所以大量的生物学研究将在生物数据上进行。生物学研究手段由单纯的观察和实验转向现代信息学方法,形成了生物信息学。生物的实验变成了数据的计算。生物数据挖掘是生物信息学主要采用的数据分析技术。
生物数据挖掘的主要工作包括生物序列相似性分析、基因的识别和功能注释、蛋白质结构和功能的预测、基因组序列信息分析(基因组功能注释)、功能基因组相关信息分析(大规模基因表达谱分析、基因组水平蛋白质功能综合预测)等。
生物数据挖掘技术包括:
(1)序列模式挖掘:生物序列间的相似搜索和比较是基因分析中最重要的问题之一。通常,生物序列总是处于不断的突变过程中,而其中的某些区域,如启动子区域等,对生物体的生存具有至关重要的意义,因而在进化过程中更为保守一些,因此它们的出现频率往往高于期望值;另一方面,生物由于进化等目的对基因的复制,使得基因组的基因相关区域和基因外区域中产生大量重复序列,并且在遗传分析中起重要作用。根据这样的生物意义,可以将生物序列模式定义为: 在多条生物序列组成的序列集合中或某一指定生物序列中出现次数超过一定数量的序列片段,如在生物序列中具有一定保守性的序列片段或生物序列中的重复序列片段。生物序列模式挖掘是寻找这样的序列模式的过程。
(2)关联分析:寻找两个或多个生物数据间的一种关联关系以及密切程度,通常用关联规则的形式描述,用置信度(confidence)和支持度(support)评估。
(3)聚类分析: 是将生物数据集划分成若干个簇,使得每个簇中的数据间尽可能的相似,而与其他簇中的数据尽可能的不相似。通过聚类识别未知生物数据所属类别。
(4)分类分析:是指给定一个未知类标号的生物数据,对已知数据的训练样本构造一个分类器,用以预测该生物数据是否属于某个特定的类,目的是对未知类别的数据指定类别。
(5)异常分析:在生物数据集中寻找产生机制明显不同于其他数据的数据,即检测生物数据集中偏差较大的数据,大多数聚类算法具有识别异常的功能,但其主要目的是对簇进行优化,而某些有意义的异常数据往往希望被消除,并不是研究异常数据本身的价值。
(6)生物文献挖掘:针对生物文献数据进行的数据挖掘。生物研究积累了大量的文献,研究成果大多体现在文献中,如生物文献与专利数据库PubMed。除了文献中所描述的成果,文献中的数据之间也蕴涵着大量的信息,如利用文献可挖掘基因表达之间的相互作用等知识。