18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 数据挖掘语言(数据库)

数据挖掘语言(数据库)

时间:2022-11-22 04:30:01 | 来源:信息时代

时间:2022-11-22 04:30:01 来源:信息时代

    数据挖掘语言 : 一种用于描述数据挖掘工作的计算机语言,根据功能和侧重点不同,将其分为三种类型: 数据挖掘查询语言(如DMQL); 数据挖掘建模语言(如PMML); 通用数据挖掘语言(如OLE DB for DM)。
数据挖掘查询语言由数据挖掘原语组成,数据挖掘原语用来定义一个数据挖掘任务。用户使用数据挖掘原语与数据挖掘系统通信,使得知识发现更有效。
一个数据挖掘查询由以下五种基本的数据挖掘原语定义:
(1)任务相关数据原语:这是被挖掘的数据库的一部分。挖掘的数据不是整个数据库,只是和具体商业问题相关、或者用户感兴趣的数据集,即是数据库中一部分表,以及表中感兴趣的属性。该原语包括以下具体的内容: 数据库或数据仓库的名称;数据库表或数据仓库的立方体; 数据选择的条件;相关的属性或维; 数据分组定义。
(2)被挖掘的知识的种类原语:该原语指定被执行的数据挖掘的功能,在DMQL中将挖掘知识分为五种类型,即五种知识的表达: 特征规则、辨别规则、关联规则、分类/预测、聚类。
(3)背景知识原语:用户能够指定背景知识,或者关于被挖掘的领域知识。这些知识对于引导知识发现过程和评估发现的模式非常有用。背景知识原语包括: 概念层次(concept hierarchy)、对数据关系的用户信任度。
(4)兴趣度测量原语:该原语将不感兴趣的模式从知识中排除出去。兴趣度测量能够用来引导数据挖掘过程,或者在发现后评估被发现的模式。不同种类的知识有不同种类的兴趣度测量方法。例如,对关联规则来说,兴趣度测量包括支持度(support)和置信度(confidence)。低于用户指定的支持度和置信度阈值的规则被认为是不感兴趣的。兴趣度测量原语包括简单性(simplicity)、正确性(certainty)、实用性(utility)和新颖性(novelty)。
(5)被发现模式的表示和可视化原语:这个原语定义被发现的模式显示的方式,用户能够选择不同的知识表示形式。该原语包括: 规则、表格、报告、图表、图形、决策树和立方体; 向下钻入和向上累积(drill-down and roll-up)。
数据挖掘建模语言是对数据挖掘模型进行描述和定义的语言。它使得数据挖掘系统在模型定义和描述方面有标准可以遵循,实现了各系统之间可以共享模型。这样既可以解决目前各数据挖掘系统之间封闭性的问题,又可以在其他应用系统中间嵌入数据挖掘模型,解决孤立的知识发现问题。如数据挖掘建模语言——预言模型标记语言PMML。
PMML由以下几个部分组成: 标题(header)、数据字典(data dictionary)、数据流(data flow)、挖掘模式(mining schema)、数据转换(data transformations)、预测模型(predictive model)、模型组合定义(ensembles of models)、选择联合模型和模型组合的规则,以及异常处理规则(rules for exception handling)。
通用数据挖掘语言合并了数据挖掘查询语言和数据挖掘建模语言两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互和特殊的挖掘。通用数据挖掘语言的标准化是解决目前数据挖掘行业出现问题的最优的解决方案。2000年3月,微软公司推出OLE DB for DM作为一种通用数据挖掘语言。
OLE DB for DM的规范包括创建原语以及许多重要数据挖掘模型的定义和使用(包括预测模型和聚集)。它是一个基于SQL预测的协议,为软件商和应用开发人员提供了一个开放的接口,该接口将数据挖掘工具和能力更有效地和商业以及电子商务应用集成。同时,OLE DB for DM已经与DMG发布的PMML标准结合。OLE DB for DM支持多种流行的数据挖掘算法。
OLE DB for DM定义了重要的新的概念和特点,填补了数据挖掘技术和关系数据库管理系统之间的缝隙,包括: 数据挖掘模型(data mining model,DMM); 预测联接操作(predication join operation);OLE DB for DM模式行集合(schema row sets)。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭