时间:2022-11-09 08:30:01 | 来源:信息时代
时间:2022-11-09 08:30:01 来源:信息时代
生物信息数据 : 通过基因组研究获取的相关生物分子信息。从信息学的角度来看,生物分子是生物信息的载体。生物信息学主要研究两种载体,即DNA分子和蛋白质分子。生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息和进化信息。
1.生物信息的特征
首先,生物信息数据量大,2004年初,国际数据库中记录的接近3000万条DNA序列的碱基数就已经超过400亿,并且生物信息数据量呈指数增长。其次,生物信息复杂,种类繁多,既有生物分子序列信息,又有结构和功能信息; 既有生命本质信息,如基因,又有生命表象信息,如基因表达信息。生物信息另一个重要的特征是,生物信息之间存在着的联系,如基因序列与蛋白质序列之间的关系、生物分子序列与结构之间的关系、结构与功能之间的关系等。
生物分子信息具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据等。序列数据、结构数据直观,功能数据多变复杂。在所有类型的数据中,序列是最基本的数据,而且也是目前最多的数据。
2.生物信息的数据类型
生物信息的数据类型主要有:
(1)序列(sequence):主要包括DNA序列、RNA序列、蛋白质序列等。序列一般以文本字符串的形式存储。目前通常的做法是将序列元数据和注释存储在关系数据库中,而每个序列的实际序列数据存储在单独的可链接文件中。
(2)图(graph): 包括有向(或无向)图、嵌套图、超图等。这种类型的数据包括各种生物通路(代谢通路、信号通路、基因调控网络)、遗传图谱(偏序图,即有向无环图)、分类学数据(树或有向无环图)和化学结构图等。序列可以视为线性有向图,多重序列可以描述为偏序图。
(3)高维数据(high-dimensional data): 大部分高维数据来自基因表达的微阵列实验。这些实验通常包括成千上万的基因和成百上千的实验条件和样本,因此数据集是基因和样本笛卡儿乘积所产生的高维数组。
(4)形态(shapes): 蛋白质、配体(ligand)及复合物(complex)的三维结构。这些数据包含形态信息(如蛋白质骨架的球状和棒状模型)和诸如电荷、疏水性及其他化学性质的标量与矢量场信息。
(5)标量和矢量场(scalar and vector fields):包括细胞体内电荷分布、穿过细胞表面或细胞内的钙流量、穿过细胞膜的反应物或蛋白质流量和药物临床反应等。
(6)时间数据(temporal data): 在研究生物系统动力学时各种类型(如标题、矢量等)的时间数据也是一种重要的数据类型,包括细胞对环境变化的反应、通路调控、基因表达层动力学、蛋白质结构动力学和进化生物学等。
(7)模式(patterns): 主要为DNA、RNA和蛋白质序列模式(或模体,motifs)。这些模式通常以正则表达式或隐马尔科夫模型(Hidden Markov Models,HMMs)及其他类型的语法表示。此外,还有约束、数学和统计模型及文本(text)等数据类型。
3.生物应用的数据查询类型
生物应用的数据查询类型有:
(1)相似性查询(similarity query):是分子生物学中普遍采用的一种查询,其中最常用的是序列相似性查询,如BLAST序列相似性查询。
(2)模式匹配查询(pattern matching query):也是分子生物学中常采用的查询。该查询要找到一个序列实例或匹配一个特定的模式等。模式用正则表达式、隐马尔科夫模型和图表语法(chart grammar)等来描述。图模式查询包括子图同态(homomorphism)查询。模式集(motifs)查询要求找到匹配特定序列的所有模式。
(3)模式发现查询(pattern discovery query): 这类查询包含模式发现,即数据挖掘,还包括检测序列、图、3D结构中频繁出现的模式。这类查询在关系集(数据库文献)和序列(大部分在计算生物学,有时在数据库文献)中应用得比较多,也可应用在图中。
(4)计算查询(computational query):生物学研究需要提供比传统数据库查询复杂得多的数学和统计运算。例如,通过计算某个数据子集的相关系数矩阵(correlation matrix)来分析微阵列数据,相关系数矩阵查询是基因聚类的基础。