18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 数据挖掘(数据库)

数据挖掘(数据库)

时间:2022-11-20 18:30:01 | 来源:信息时代

时间:2022-11-20 18:30:01 来源:信息时代

    数据挖掘 : 从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来; 规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能等领域中的大量技术。与数据挖掘非常接近的术语是知识发现。
数据挖掘方法分为描述性和预测性两类。描述性数据挖掘提供数据的一般规律; 预测性数据挖掘产生关于数据的预测。
数据挖掘的主要内容有: 关联分析、演变分析、聚类分析、分类分析和异常分析等五大类。用于数据挖掘工作的主要算法有: 用于关联分析的Apriori算法、FP-Growth算法、Apriori Tid算法、ML-T2算法、ML-SH算法、ML-CH算法等; 用于聚类分析的k-Means算法、k-medoids算法、CLARANS算法、CURE算法、Chameleon算法、BIRCH算法、CLIQUE算法、CLASSIT算法等; 用于分类的ID3算法、C4.5算法、CART算法、SLIQ算法、SPRINT算法、Rain Forest算法、BAYESIAN算法、神经网络方法等; 用于异常检测的LOF算法、NL算法、FindAllOutsD算法等。
数据挖掘可以是针对一般的数据源也可以针对特殊应用的数据源。针对一般数据源的挖掘主要有序列数据挖掘、流数据挖掘、文本数据挖掘、多媒体数据挖掘、空间数据挖掘等; 针对特殊应用数据源的挖掘有交易数据挖掘、Web数据挖掘、生物数据挖掘、金融数据挖掘、气象数据挖掘、统计数据挖掘、电信数据挖掘等。
数据挖掘概念最早出现在1989年8月举行的第11届国际联合人工智能学术会议上,称为知识发现(KDD)。两者的概念和内涵并没有太大分别,就目前术语的使用情况来看,人工智能领域主要使用术语知识发现,而数据库领域和工业界主要使用术语数据挖掘。
随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。还有许多数据挖掘年会,包括PAKDD,PKDD,SIAM-Data Mining等。1997年开始的PAKDD (Pacific-Asia Conference on Knowledge Discovery and Data Mining)是亚太地区数据挖掘会议。1997年开始的PKDD(European Symposium on Principles of Data Mining and Knowledge Discovery)是欧洲数据挖掘讨论会。2001年开始的SIAM-Data Mining(Society for Industrial and Applied Mathematics)是SIAM组织召开的数据挖掘讨论会,专注于科学数据的数据挖掘。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering会刊在1993年出版了KDD技术专刊。不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威(http://www.kdnuggets.com)。
关于数据挖掘软件主要的实验室系统有: 加拿大Simon Fraser大学“智能数据库系统研究室”研制并开发的数据挖掘系统DBMiner; 新加坡国立大学计算机学院研制并开发的CBA和IAS;澳大利亚国立大学研制并开发的数据挖掘系统原型Dmtools;英国Ulster大学研制的MIMIC、CERENA、Net Model等系统;德国Dortmund大学计算机系人工智能实验室的欧共体IST项目Mining Mart; 美国卡内基梅隆大学自动学习和发现中心关于数据挖掘技术在制造业和多媒体数据库应用的研究; 哥伦比亚大学研究的入侵检测系统IDS等。
关于数据挖掘软件主要的商业产品系统有:SPSS公司的Clementine,SAS公司的Enterprise Miner,IBM公司的Intelligent Miner,SGI公司的Mineset,Sybase公司的Warehouse Studio,Rule Quest Research公司的See5,还有Cover Story,EXPLORA,Knowledge Discovery Workbench,D Miner,Quest等。
Grossman从技术体系上将数据挖掘软件划分为四代。
第一代: 支持一个或少数几个数据挖掘算法,用于挖掘向量数据(vector-valued data)。在做挖掘时,数据一般一次性调进内存进行处理。典型的软件如Salford Systems 公司早期的CART系统(www.salford-systems.com)。
第二代: 与数据库管理系统(DBMS)集成,支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。能够挖掘大数据集及更复杂的数据集。通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性。典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作。
第三代: 由数据挖掘软件产生的预测模型,能够自动地被操作型系统吸收,从而与操作型系统中的预测模型相联合提供决策支持的功能。另一个特点是能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且有效地和操作型系统集成。
第四代: 挖掘嵌入式系统、移动系统等产生的各种类型的数据。目前还在研究阶段,还没有产品。
数据挖掘的标准化目前包括以下三个标准:
CRISP-DM: 交叉行业数据挖掘过程标准(CRoss-Industry Standard Process for Data Mining)。它由SPSS、NCR以及DaimlerChrysler三个公司于1996年提出。其中,SPSS是数据挖掘软件商,NCR是数据仓库厂商,DaimlerChrsler是数据仓库和数据挖掘应用商。CRISP-DM过程模型注重技术的应用,在1999年发布了CRISP-DM1.0。之后,CRISP-DM被各个数据挖掘软件商用来指导其开发数据挖掘软件。
PMML: 预测模型标记语言(Predictive Model Markup Language,PMML)。它由数据挖掘协会(The Data Mining Group,http://www.dmg.org,DMG)开发。PMML是对数据挖掘模型进行描述和定义的语言,已经被W3C接受,成为国际标准。
OLE DB For DM:是微软公司在2000年3月推出的数据挖掘标准。OLE DB for DM的规范包括创建原语以及许多重要数据挖掘模型的定义和使用(包括预测模型和聚集)。它是一个基于SQL预测的协议,为软件商和应用开发人员提供了一个开放的接口,该接口将数据挖掘工具和能力更有效地和商业以及电子商务应用集成。同时,OLE DB for DM已经与DMG发布的PMML标准结合。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭