18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 基于内容音频检索(数据库)

基于内容音频检索(数据库)

时间:2022-12-28 22:30:01 | 来源:信息时代

时间:2022-12-28 22:30:01 来源:信息时代

    基于内容音频检索 : 从大型音频数据库或一段长录音中找到感兴趣的音频内容的一种多媒体数据检索方法。音频检索的研究始于20世纪90年代,主要研究如何应用音频的物理特征实现基于内容的检索。英国剑桥大学的VMR、卡内基·梅隆大学的Informedia都是很出色的音频处理系统。美国的Muscle fish公司推出的原型系统,对音频的检索和分类有较高的准确率。哈尔滨工业大学提出了一种基于分段的快速音频检索算法。该算法的速度不随检索目标的长度变化,检索速度可调,且能获得良好的查全率和查准率。
作为一种信息载体,音频可以分为三类: ①模拟声音数字化后的数字音频信号; ②具有字词、语法等语素的语音; ③具有节奏、旋律或和声等要素的音乐。不同的音频类别具有显著不同的特征,根据检索对象和检索方法的不同,音频信息检索的研究分为一般音频检索、语音检索、音乐检索。
音频内容分为从低到高的三个级别: 物理样本(采样率、格式、编码、时间戳、样本)、声学特征(音调、旋律、节奏、能量、时空结构等)和语义级(内容、对象的概念级描述)。一些声学特征是从音频数据中自动抽取的,可以直接用于检索;一些特征用于语音的识别或检测,支持更高层的内容表示。在语义级上,音频的内容是语音识别、检测、辨别的结果,或是音乐旋律和叙事的说明等等。基于内容的音频检索最关注的是特征层和语义层。
1.建立音频特征库
(1)预处理: 指对音频数据进行解码、音频分割、去噪、频谱分析等各种操作,其中音频分割只是预处理的子集。如果一段音频包含多种类型的声音,首先需要区分语音、音乐或其他声音,通过信号的声学分析并查找声音的转变点来实现音频分割。分割后的音频区段就可以作为单个声音处理。在分割的基础上,对音频内容进行结构化表示,也可以有效地提高查询、检索的效率。此外,预处理还包括音乐解码、频谱分析、去噪、丢掉不重要信息等。
(2)特征提取、描述和分类: 基于内容的音频检索要从音频数据中提取听觉特征信息。音频特征可以分为听觉感知特征和听觉非感知特征(物理特性)。听觉感知特征包括音量(用声波信号的均方根近似描述)、音调(通过一系列较短时间段音频信号的傅里叶频谱来计算)、音强(用较短时间段音频信号的傅里叶频谱的质心表示)等。非感知特征包括对数倒频谱系数、线性预测系数等,其中线性预测系数在音频压缩编码领域和音频信息检索方面有极其广泛的应用。音频特征随时间而动态变化,需要计算不同时间段的声波信号的波形,并将波形的均值、方差和自相关系数等记录在波形数据库中; 对音频数据进行采样、帧抽取后,运用方差分析等统计方法对音调、音量、音强等音频特征进行量化。并在音频数据库中记录这些量化值,形成索引树,在检索时可以利用这些特征进行示例和指定特征值查询。这种方法适合检索声音效果数据和对它们进行分类,如动物声、机器声、乐器声、语音和其他自然声等。
对音频还可以遵循MPEG-7进行特征描述,形成特征库,便于根据语义特征进行检索。
不同类型音频具有不同的预处理和分析方法。
2.检索
(1)检索方法: ①用标准的描述语言描述检索请求; ②基于实例的检索; ③使用与要查找的声音性质相似的声音来表达检索请求; ④请求基于音频分类目录或音频结构进行浏览。
(2)检索过程: 提问; 预处理(依情况决定是否需要); 特征提取;特征描述; 计算提问与库中音频的相关度; 排序输出。

关键词:数据,音频,内容

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭