时间:2022-11-21 00:30:02 | 来源:信息时代
时间:2022-11-21 00:30:02 来源:信息时代
数据挖掘标准 : 挖掘从大量数据中发现隐藏的、先前未知且可用的相互关系的数据过程规范。
20世纪80年代随着信息技术在社会各个领域广泛应用,一些行业的数据库逐渐积累数据,且日益增多。面对这种情况,探寻如何从海量数据中提取一些相关的信息或知识,在更深层次利用数据的问题,数据库所提供的查询功能已难以解决。因此,就出现了利用数据库的数据,融合人工智能、统计学、并行计算等多学科技术的研究,开始有了数据仓库、数据挖掘。数据挖掘对所挖掘分析的数据不需要作任何期待结果的假设,而它挖掘所发现交付的知识,可用于对数据更好的理解,指导实际问题的求解,从而产生应用的显著效果,受到普遍的关注。于是,到1999年ISO/IEC JTC1 SC32在制订SQL99标准之后,为进一步规范和推动数据挖掘的应用发展,在SQL/MM应用包标准系列提出制订了数据挖掘部分的标准,即 ISO/IEC 13249-6:Information technology—Database languages—SQL multimedia and application packages—Part 6: Data mining。
数据挖掘标准提出并规范了目前广泛接受应用的四种数据挖掘技术(data mining techniques):
(1)规则发现(rule discovery): 分为关联规则(association rule)和序列规则(sequence rule)发现。关联规则发现是寻找事物之间的关联。如,它可从一组(假设是商品采购)事务包含的一组数据项中发现规则如下: 如果采购事务包含项X和项Y,则在全部采购事务的N%中包含采购事务的项Z。序列规则发现类似于关联规则发现,是寻找事物之间的序列关系。如,同样可从消费者购物的一组事务所包含的一组数据项中,进一步对这些事务的每个消费者给以标识。发现规则如下: 如果消费者的采购事务包含项X和项Y,则在其后同样的消费者在采购事务中占全部消费者N%的也包含项Z。
(2)聚类(clustering): 根据对象之间的相似性把对象分组。例如,给出带有一组字段的一组输入行,找出带有公共特征的输入行的组,这些组称之为簇。特征化的每个簇通过输入字段值和排列输入字段,使大多有区别的那些字段首先出现。
(3)分类(classification): 按照分析对象的属性、特征,建立不同的分类模型、类别标识用来预测事物。如,给出一组输入行,它带有一组字段和分类标志的特定字段,计算分类模型实现在没有分类标志而通过使用模型和一组输入字段值能预测分类标志。优化模型以使分类标志能用字段值的最小数预测。
(4)回归(regression): 除了预测值的类型之外,它类似于分类。计算回归模型允许预知数值,是连续值的预测,而不是类的预测,发现变量和属性间的依赖关系。如,给定一个变易集的值,x1,x2,x3,…,xn,希望预测变量y的值。预测值不可能与在使用构建模型中数据包含的任何值是同一个值。
数据挖掘运行是使用数据挖掘的设置对数据挖掘模型的计算。数据挖掘标准依据数据挖掘技术可处理运行的过程,提出并规范了通常所用的四个计算阶段:
(1)训练阶段(training phase): 这是所有数据挖掘技术公用的,用于计算数据挖掘模型的阶段。该阶段在建立模型前需要准备数据并做预处理。在预处理时要定义识别字段分配给有关的信息,如挖掘类型和特定的控制字段。在分类和回归技术中用的训练阶段还要有一个确认处理,称确认阶段,作为数据挖掘分类和回归技术训练阶段的一部分。它给数据挖掘模型输入另外的数值组,可作为测试阶段的描述,其结果作为实例以决定运算法则结束时间。
(2)模型自查阶段(model introspection phase):也是所有数据挖掘技术普遍使用,用以解释和评估模型。将模型与目标一起细查,揭示训练阶段中数据的相关性,以期达到两个目的: ①找出数据中潜在的规律,有助于进一步解释模型; ②找出有统计价值的特性,有助于评估模型的质量。
(3)测试阶段(testing phase): 只用于分类和回归。测试时为模型的对象字段读入系列数值组,在应用中评估每个数值组,将预测数值和对象字段里的实际数值做比较,其结果可为使用者或应用提供实例,以此决定模型以质量为基础能否应用于实际。
(4)应用阶段(application phase): 模型应用期间输入数据组用来评估模型,或用较多的数据组来计算模型。为了能正确地使用模型的输入值,必须将其分配到训练阶段确认的相关字段中。一个预定课题的模型应用,产生一个表可以控制相关的其他课题。模型由一个或多个规则的特定输入而得出推论,推论结果可与附加特性一并提交。特定情况下,推论是对模型可信度的支持。
这几个阶段不是一次完成的,数据挖掘运行当包括训练阶段时调用训练阶段运行,当包括测试阶段时调用测试阶段运行。其中某些阶段要反复多次,各项功能也不是独立实现的,有时要几种方法互相联系才能发挥作用。
数据挖掘标准提出并规范了基于SQL99之后按用户定义类型组织的数据,用户定义类型典型的应用是对数据仓库,应用一般需要在不同的数据集合上灵活地执行不同的任务,标准提供了很多不同的用户定义类型以配合不同的应用方式。
数据挖掘不仅在不同的计算阶段需要有不同的用户定义类型,而且,不同的数据挖掘技术也需要不同的用户定义类型。这些用户定义类型有的与挖掘技术无关,有的与挖掘技术有关。与挖掘技术无关的是作为挖掘数据、逻辑性数据规格说明和挖掘应用数据表征信息的这类用户定义类型,它们无挖掘技术的详细说明,不提供与计算任何挖掘相关信息的任何方法,只能用于定义其后数据挖掘功能所需要的元数据。其类型有:
(1)挖掘数据:是对包含在表或视图中的真实数据提取的类型。这个类型的值代表随后数据挖掘训练、测试和应用运行访问真实表的元数据。
逻辑性数据规格说明的,定义由数据挖掘训练、数据挖掘测试或数据挖掘应用运行所用的输入字段的类型。它允许数据挖掘字段相关信息的详细规格说明。
(2)应用数据:是按照收容应用数据挖掘模型所用的数据的容器而引入的类型。
除了上述用户定义类型之外,其余都与挖掘技术本身有关,用在定义数据挖掘技术的挖掘处理过程。这类用户定义类型属于:
(1)挖掘任务类型: 类似于启动数据挖掘训练、测试或应用运行去计算、测试或应用数据挖掘模型实际需要预先提供信息的类型。
(2)挖掘模型类型:定义按照提取定义的用作当前数据挖掘模型的类型。它提供像应用或测试模型一样的方法,访问模型的特性。
(3)数据挖掘测试结果类型:是为持有用作数据挖掘模型测试运行计算结果信息而引入的类型。
(4)数据挖掘应用结果类型:也是因为数据挖掘模型的应用能返回多重值而引入的类型。
(5)数据挖掘设置类型:是为保存需要详细指明数据挖掘运行的所有信息而引入的类型。具体支持的设置类型有分类设置、聚类设置、回归设置和规则设置类型。
(6)规则过滤类型:是保存必需详细说明的关联或序列规则子集的所有信息的类型。
数据挖掘标准按照关联、聚类、分类和回归四种数据挖掘技术,都分别详细地定义了数据挖掘所需要的各种用户定义类型,同时提出了对应的例程与方法。标准也提出了对相符性的支持,在技术和结构上构成了数据挖掘完整的标准。