时间:2022-12-19 20:30:01 | 来源:信息时代
时间:2022-12-19 20:30:01 来源:信息时代
多媒体数据挖掘 : 针对多媒体数据进行的数据挖掘。多媒体数据是指音频数据、视频数据、图像数据和超文本数据等。根据多媒体数据类型的不同,多媒体数据挖掘分为: 文本挖掘、图像挖掘、视频挖掘、音频挖掘、综合类型挖掘。主要的多媒体数据挖掘方法包括:
(1) 多媒体数据的相似性搜索: 包括: ①基于描述的检索系统,主要是在图像描述之上建立标引和执行对象检索,如关键字、标题、尺寸和创建时间等; ②基于内容的检索系统,它支持基于图像内容的检索,如颜色构成、纹理、形状、对象和小波变换等。
基于内容的检索使用视觉的特征标引图像并基于特征相似检索对象,这方面的典型例子是IBM的QBIC系统。但因这类检索到的是特征相似而非语义相似性,为消除语义间隙(semantic gap),基于描述的检索使用更广泛。基于描述的检索若手工完成非常费力,自动完成主要通过机器学习的方法,建立特征和描述之间的统计模型,利用该统计模型表示多媒体信息的关键字等。目前效果较好的此类模型是美国马萨诸塞大学智能信息中心提出的相关语言模型。
(2)多媒体数据的多维分析: 依据传统从关系数据库中构造数据立方体的方法,设计和构造多媒体数据立方体。多媒体数据立方体包含对多媒体信息的维和度量,如颜色、纹理和形状。这方面的典型例子是由加拿大西蒙·弗雷泽大学设计实现的多媒体数据挖掘系统MultiMediaMiner,它在DBMiner系统的基础上扩展了处理多媒体数据的功能。多媒体数据立方体的建立有助于多媒体数据的基于视觉内容的多维分析和多种知识的挖掘。
(3) 多媒体数据的分类: 首先,需要对多媒体数据提取特征,然后对这些特征应用不同的分类方法进行分类。在图像分类领域,存在几种主要的分类方法: 二维隐马尔科夫模型,利用图像分割后区域的特征以及这些区域的关系建立二维隐马尔可夫模型进行分类; k近邻,将图像分成若干对象提取对象特征进行分类; 决策树分类,构造决策树模型进行分类;另外还包括支持向量机、高斯混合模型等。
(4) 多媒体数据的关联分析: 一个图像可以包含多个对象,每个对象有许多特征,很多情况下,两个图像的某个特征在某一分辨率级别下是相同的,但在更细的分辨率下是不同的,关联分析需使用多级分辨率逐步求精方法。由于包含多个重复出现对象的图片是图像分析中一个重要特征,在关联分析中不应忽视同一对象的重复出现问题。在多媒体对象间通常存在着重要的空间关系,这些特征对挖掘对象关联和相关性非常有用。另外,经过标注图像可以由关键字表示,关联分析除了利用图像本身的特征,还可以考虑其文本特征。
注: 以上描述中主要以图像为例,对其他类型多媒体数据提取不同的特征,这些方法也可用。