时间:2022-11-21 06:30:01 | 来源:信息时代
时间:2022-11-21 06:30:01 来源:信息时代
数据挖掘的数据准备 : 为一个数据挖掘应用准备数据,包括数据选择、数据清洗、数据抽取、数据转换和数据加载等工作内容。
(1)数据选择(data selection): 从现有的数据中,结合挖掘需求,确定哪些数据是和数据分析相关的,使用哪部分数据进行分析,包括对表、属性、记录等的选择。在实际的应用中,数据的选择可以根据系统目标、数据质量、数据类型和算法要求等来确定,如某些算法只能使用数值属性或分类属性。
(2)数据清洗(data cleaning): 对于选择出的数据,进行数据清洗工作,将数据转变成“干净”的数据。包括修正错误和缺失的数据、处理空值以及过滤噪音和无关数据等。
(3)数据抽取(data extracting): 从数据源中,如商业数据库或Web服务器日志等,根据数据选择的属性、表格、规则,使用数据库技术或抽取方法,抽取相应的数据。
(4)数据转换(data transforming):包括:①构建数据: 如某些模型需要生成派生属性,或者将已有属性转换为需要的形式,或者生成某些新的记录代替某部分旧记录; ②数据集成和聚集: 如把一张用户具体销售信息表的信息聚集为粒度较大的表,或者是,两个或两个以上的表格包含的信息常常是关于同一个对象的,可以把它们组合成一个表格; ③格式化数据: 转换为建模工具所需要的标准形式。
(5)数据加载(data loading): 将转换后的干净、正确、标准的数据加载到数据集中,成为数据挖掘工具可以使用的工作数据集。