时间:2022-12-28 16:30:01 | 来源:信息时代
时间:2022-12-28 16:30:01 来源:信息时代
基于内容多媒体检索 : 通过对多媒体数据的分析处理、提取特征、分类/聚类、索引、近似匹配,为检索用户提供按相关度排序的若干结果的活动。基于内容的多媒体检索的技术复杂性和难度,使它不仅依赖数据库技术,还要以认知科学、人工智能、计算语言学、计算机图形学为学科基础,并利用它们的研究成果和方法。
经典的信息检索问题是利用一组关键字组成的检索请求来定位所需要的文档,即发现匹配的文档。一个包含较多查询项的文档显然比包含较少查询项的文档与检索请求更“相关”。于是,按照“相关”度排序的文档被作为检索结果提交给用户,以便进一步搜索。虽然这个过程是为文本设计的,但理论和实践证明,它也适用于音频或其他多媒体信息的检索。
1.基于内容的多媒体检索的原理
数据预处理: 分析多媒体数据的内容,直接提取或人工描述全部/部分底层特征和高级语义,建立特征库和索引库; 检索: 提取问题的语义、计算问题的特征向量; 借助索引进行查找; 运用媒体数据特征进行筛选; 按相关度给出结果集合。一个良好的检索系统还要提供有效的处理算法和可视化接口,让用户以最简单的操作方式得到最好的结果。
除了媒体库、索引库、特征库,基于内容的多媒体检索通常还需要有知识库。知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应不同领域的需求。利用这些库可满足用户多层次的检索要求。
2.基于内容的多媒体信息检索技术
(1)提交检索请求的方式: 包括: ①样本方式,将输入的多媒体信息(一段音乐、一段视频)作为查询的样本;②描述方式,用文字描绘多媒体特征,如音乐的音高、视频的运动对象,表达自己的检索意图。
(2)多媒体内容: 多媒体数据内容分多个层次:用文字描述的语义;以视觉特性(颜色、纹理、形状、轮廓、运动、人的面部特征、指纹特征)和听觉特性(音高、音色、音质等)为代表的感知特性; 音视频对象时空上的逻辑关系; 通过小波分析等信号处理方法获得的信号特性。
(3)数据分析与处理: 在提取多媒体数据内容之前,一般需要对数据进行分析,并作适当处理,如文本的分词、音频去噪、MP3解码、视频分割等。然后对内容进行结构化,也就是分割出图像对象、音乐的片断、视频运动对象、音视频的时间结构,以及对象之间的关系。
(4)特征提取与描述: 对不同媒体采用不同的方法提取数据显著的区分特征和人的视觉、听觉感知特征来代表多媒体数据的特性; 运用语义知识对媒体信息进行手工注释,或者自动分析内容并提取语义(如分析多媒体信息出现的位置以及周围的文字); 使用描述语言进行描述。
(5)聚类与分类: 通过聚类或分类,可有效地降低大规模媒体数据处理的复杂度。
聚类是运用某种算法根据相关度自动对数据进行聚合,产生相互关联的层次型类别或者相互无关的分割型类别。在进行检索时,将提问数据的特征向量与各类进行相关度计算,确定所在的类。一种方法是将该类的所有数据作为检索结果反馈给用户,另一种方法是继续将提问向量与该类中数据进行相关度计算,以确定最相关的数据集。
分类是事先给定类别,并通过对大量数据进行训练,确定每类的代表样本。当有新的数据库入库时,计算新数据与各类的相关度,确定新数据所在的类别。
(6)索引方法: 快速索引技术是影响检索速度的关键。由于媒体数据的特征描述一般都是高维的,而特征空间中的相近意味着较大的相关度,因此问题的关键就在于如何在高维空间点集中寻找与给定点距离最近的一组点。
(7)相关反馈: 多媒体数据的低层特征和高层语义间存在着很大的差距,人比计算机能更准确地从多媒体信息中提取语义。为了提取与人的理解相对应的描述,利用低层特征,通过人机交互的方式,多次反馈和修正检索结果,将人的知识加入高层,弥补低层特征、高层描述之间的差距,最终获得与检索请求最接近的结果集,就是所谓的相关反馈技术。相关反馈技术大致可分为参数调整方法、聚类分析方法、概率学习方法和神经网络方法。
(8)领域相关性: 媒体的内容语义与检索提问有关,也与领域有关。检索的层次越高,越接近于抽象,就越离不开领域知识的辅助。垂直搜索(专业搜索引擎)的出现证明,有领域针对性的检索系统能够给出更好的检索结果。基于内容的检索应该分阶段完成,第一阶段先用无领域知识的方法缩小检索空间,第二阶段再逐步利用领域知识进行更细致的查找和匹配。
(9)效果评价: 基于内容的多媒体检索的评价指标理论上有两个: 查准率、查全率,但是,就可用性而言,还有一个重要指标: 响应速度。查准率是返回结果中“符合”检索请求的结果比率。查全率是返回的“符合”检索请求的结果数占多媒体库中符合检索请求的数据的比率。其中,“符合”的含义没有客观的标准,可能因人而异。查全率难于理论证明,从应用角度讲重要性也远远小于响应速度和查准率。
关键词:数据,体检,内容