18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 数据流挖掘(数据库)

数据流挖掘(数据库)

时间:2022-11-01 14:30:01 | 来源:信息时代

时间:2022-11-01 14:30:01 来源:信息时代

    数据流挖掘 : 针对数据流进行的数据挖掘。数据流是指大量连续到达的、潜在的、无限的数据的有序序列,具有四个主要特征: ①数据总量假定是无限的; ②数据到达速率快; ③数据到达次序不受应用约束; ④除非可以保存,每个元素均只能够“看”一次。
数据流对数据挖掘技术提出了特殊的要求: ①算法必须能够快速处理每一个数据,实时输出处理结果; ②算法的空间复杂度要低,算法的空间占用量的增长速度远小于数据自身规模的增长速度;③由于空间复杂度低、处理数据速率高,往往只能够得到近似解,但近似解必须具备一定的精确度; ④算法的适应性要强。数据流挖掘主要有:
(1)数据流聚类: 由于完整甚至部分地存储过去数据的方法不可行,需要能够只使用新数据就能够追踪聚类变化的算法,这就要求算法必须是增量式的,对聚类表示要简洁,对新数据的处理要快速,对噪音和异常数据是稳健的。因为数据流可看成是随时间不断变化的无限过程,其隐含的聚类可能随时间动态地变化而导致聚类质量降低。一些应用于大规模数据集的一趟聚类算法,如Squeezer算法和BIRCH算法,可用于某些流数据问题; 也有专门针对流数据的聚类算法,典型的有STREAM算法和CluStream算法。
(2) 数据流分类: Hoefding决策树分类算法VFDT(Very Fast Decision Tree)使用恒定的内存大小和时间处理每个样本,有效地解决了时间、内存和样本对数据挖掘,特别是高速流数据上的数据挖掘的限制。
(3)数据流频繁模式挖掘: 与对静态数据集的挖掘相比,流数据有更多信息要追踪和更复杂的情况要处理,频繁项集会随时间而变化,非频繁项在后来可能成为频繁项而不容忽视,存储结构需要动态调整以反映频繁项集随时间进化的情况。挖掘算法如基于FP树模型的FP-Stream,它采用倾斜时间窗口技术来维护频繁模式以解决时间敏感问题; 利用有限存储空间通过一趟扫描来估计数据流中最大频繁项集的算法,采用Count Sketch数据结构,使得可在流中可靠地估计频繁项集的频率。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭