18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 分布式数据挖掘(数据库)

分布式数据挖掘(数据库)

时间:2022-12-22 22:30:01 | 来源:信息时代

时间:2022-12-22 22:30:01 来源:信息时代

    分布式数据挖掘 : 在分布式环境下对地理上分布的数据进行的数据挖掘。
在许多情况下,将所有数据集成在一起进行分析往往是不可行的,分布式数据挖掘系统充分利用分布式计算的能力对相关数据进行数据分析与综合。对于数据集成的数据挖掘系统,将数据合理地划分为若干个小模块,并由数据挖掘系统并行地处理,最后再将各个局部处理结果合成最终的输出模式,这个过程称为分布式数据挖掘,这样的方法可以节省大量的时间和空间开销。
数据有两种分布情况,一种是各结点间数据的属性空间相同,称为同构数据; 另一种是各结点间数据具有不同的属性空间,即称为异构数据。
同构结点的数据挖掘方法主要有元学习(meta-learning)、合作学习(cooperative learning)等方法,其中由Prodromidis等人于2000年首先提出的元学习方法最具代表性。但如果简单地将同构系统所采用的数据挖掘方法应用于异构分布式数据挖掘系统,那么,为了得到一个精确的预测模型往往需要很大的系统开销,有时甚至是不可行的。为了能够在结点异构的情况下有效地进行数据挖掘,Kargupta等人提出了CDM(collective data mining)的概念。
典型的分布式数据挖掘算法的两个基本步骤是: ①局部数据挖掘,生成局部数据规律; ②组合不同数据站点上的局部数据规律,得到全局数据规律。
由于各站点上的数据同构,水平划分的分布式数据库的数据挖掘方法比较简单,只要将通常的局部数据挖掘方法稍加修改,然后按上述步骤进行,则能够挖掘出合适的全局数据规律。
由于基于网络的分布式数据库通常处于一种分散的状态,其特点是数据的异构和站点的分散,需要有一个能有效地处理分布式异构数据的挖掘系统框架。
常见的分布式数据挖掘算法有分布式决策树生成算法(如Arguello等人基于对决策树增量学习算法的研究,针对共享存储器和无共享两种多处理器结构,提出的DSD(distributed subtree derivation)和DTD(distributed tree derivation))和分布式关联规则发现算法,如Cheung等人提出的分布式关联规则挖掘算法FDM(fast distributed mining of association rules)。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭