时间:2022-11-10 18:30:01 | 来源:信息时代
时间:2022-11-10 18:30:01 来源:信息时代
时空数据挖掘 : 从时空数据库中发现知识,即从时空数据库中提取用户感兴趣的时空模式与特征、时空与非时空数据的普遍关系及其他一些隐含在数据库中普遍的数据特征的一种工具,或称时空知识发现(spatiotemporal knowledge discovery)。现实世界中,时间、属性、空间是地理事物的三个不可分割的特性。与一般的关系数据库相比,时空数据库中既存在着非时空数据之间的语义关联信息,还存在着时空数据之间、时空数据与非时空数据之间的特殊语义信息。时空数据挖掘技术对于交通管理、环境监测等时空应用具有重要的意义。
1. 时空数据及其类型
在现实世界中,不同的时空应用所关注的时空数据的类型有所差别,不同的时空数据模型所能够表达的时空数据类型也有所不同。时空数据类型的差异使得时空数据挖掘所针对的数据对象不同,从而形成不同类型的时空数据挖掘问题。在时空数据挖掘研究中,时空数据主要可以分为以下几类:
(1)数值型序列时空数据:按时间序列构成的数值时空数据序列。对时间序列而言,单个或多个时间序列都可以作为时空挖掘对象。
(2)事务型序列时空数据:按时间序列构成的事务型记录序列。对事务序列而言,一般都是以一组这类序列的集合构成挖掘的对象。
(3)事件序列时空数据:按时间序列构成的事件序列。大多数事件序列的挖掘研究是对单个事件序列进行的。
2. 时空知识及其类型
针对时空数据的特点,从时空数据库中可以发现的知识,主要有以下几种类型:
(1)一般的几何知识:指某类对象的大小、形状等一般的几何特征。可通过计算和统计得出时空对象几何特征的最小值、最大值、均值、方差、直方图等,再根据背景知识归纳出高水平的一般几何知识。
(2) 时空分布规律:指时空对象在地理空间的分布规律,包括垂直方向分布规律、水平方向分布规律以及垂直和水平方向的联合分布规律。垂直方向分布指时空对象沿高程带的分布,水平方向分布指时空对象在二维空间区域的分布规律,垂直和水平方向的联合分布指不同的空间区域中时空对象沿高程带的分布规律。
(3)时空关联规则: 指时空对象间相离、相邻、相接、部分覆盖、相交、包含等与空间关系相关的关联规则。
(4)时空聚类规则:指时空对象按相似特征进行聚类的规则。
(5)时空特征规则:指时空对象的几何特征和属性特征的共性特征规律。
(6)时空区分规则:指时空对象间几何特征和属性特征的区别特性,即可以区分不同类对象的特征规律。
(7)时空演变规则:指时空对象按时间的演变规则,即时空变化的规律。
3. 时空数据的挖掘方法
时空数据挖掘继承了空间数据挖掘和时态数据挖掘的一些相关方法。时空数据挖掘的研究主要有两种方式: 一种是在空间数据挖掘方法中嵌入时间特征; 另一种是在时态数据挖掘方法中加入空间特征。目前提出的时空数据挖掘方法主要有:
(1)统计方法:是时空数据分析的常用方法,可有效地处理数字型数据。使用该方法一般先建立一个统计模型,然后根据模型进行知识抽取。这类方法有时需要数据满足统计不相关假设。但对于时空数据库,这种假设在很多情况下难以满足。另外统计方法难以处理字符型数据。
(2)归纳方法:通过数据概括和综合来归纳出一般性的时空模式或特征。归纳法一般需要背景知识,常以概念树的形式给出。在时空数据库中,背景知识一般可通过属性概念树和时空关系概念树给出。
(3)聚类方法:按一定的距离或相似度将数据聚类成若干可相互区分的集合。它与归纳方法不同之处在于可以不需要旧知识而直接发现一些有意义的结构与模式。时空聚类方法可采用时空拓扑关系分析、时空距离分析等方法,旨在发现时空对象在时空上的相接、相邻等关联关系。
(4)粗糙集(rough set)方法: 粗糙集理论是波兰华沙大学Z. Pawlak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。粗糙集理论为时空数据挖掘开辟了一条新途径,可用于时空数据库属性数据的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成,使得在保持普遍化数据内涵的前提条件下最大限度地精练知识。
(5)云理论: 是用于处理不确定性的一种新理论,由云模型、不确定性推理和云变换三大支柱构成。云理论将模糊性和随机性结合起来,弥补了作为模糊集理论基石的隶属函数概念的固有缺陷,为时空数据挖掘中定量与定性相结合的处理方法奠定了基础。
在时空数据挖掘系统中,常常要综合应用以上的时空数据挖掘方法,此外还需要与常规的数据库技术充分结合。例如在时空数据库中挖掘空间演变规则时首先可利用空间数据库的叠置分析等方法提取出变化了的数据,再用综合统计方法和归纳方法得到空间演变规则。此外,除了上述等方法,还有一些其他技术,如数据可视化技术、知识表示技术等。虽然这些技术并不普遍地应用于时空数据挖掘,但其处理方法也会对时空数据挖掘有所启发。
4.时空数据挖掘的实现步骤
时空数据挖掘的实现,一般包括以下步骤:
(1)数据准备:熟悉相关领域的背景知识,调查和分析用户需求。
(2)数据选择:根据用户需求从时空数据库中选择数据集合。
(3)数据预处理:检查被选择的数据集合的完整性及一致性,除去其中的噪音数据,并补充缺失的数据。
(4)数据缩减:通过投影等操作减少数据集的大小,根据用户需求确定时空数据挖掘的目标以及拟挖掘的知识类型。
(5)确定时空数据挖掘算法:根据时空数据挖掘的目标确定合适的挖掘算法,包括选取合适的模型和参数,并使得算法和整个时空数据挖掘的评判标准相一致。
(6)数据挖掘:执行时空数据挖掘的过程,即使用确定的挖掘算法从数据集中提取出用户所需的知识。这些知识可以用一种特定的方式表示,或使用一些常用表示方式,如产生式规则等。
(7)模式解释:对挖掘出来的结构、模式或特征等进行解释。此过程可能会返回到前面的某些步骤反复提取以取得更为有效的知识。
(8)知识呈现与评价:将挖掘出来的知识呈现给用户,并对知识进行一致性检验,以保证所抽取的知识不与以前的知识冲突。