18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 语音检索(数据库)

语音检索(数据库)

时间:2022-12-07 02:30:02 | 来源:信息时代

时间:2022-12-07 02:30:02 来源:信息时代

    语音检索 : 以语音为中心的音频检索。实现语音检索最重要的基础技术是语音识别。美国通用电话与电子设备公司的John Makhoul和Francis Kubala等人开发的Rough’n’Ready将广播节目自动分类,并给出每段节目内容的索引供用户检索。在检索过程中,依次对广播节目进行音频分割、非特定人的连续语音识别、说话人确认、关键字检出,以及主体分类等一系列处理。
1. 语音识别
语音识别是机器通过识别和理解把语音信号转变为相应的文本或命令的技术。
语音识别的研究始于20世纪50年代,主要研究稳健语音识别、说话者自适应技术、大词汇量关键词识别算法、语音识别的可信度测评算法、基于类的语言模型和自适应语言模型。但直到60年代中期才取得了实质性进展,其重要标志就是日本学者Itakura将动态规划算法用于解决语音识别中语速多变的难题,提出了动态时间收缩算法(dynamic time warping,DTW)。卡内基·梅隆大学1994年开始的Informedia项目研究音频信息的自动索引、导航、可视化、查找与检索。该项目利用语音识别技术将音频流中的语音转换成文本信息,然后通过基于关键字的搜索来检索关键字所在的多媒体(音、视频)片断。此外,美国科罗拉多大学与密歇根大学联合开发的Speechfind系统、MITRE公司的广播新闻浏览器、英国剑桥大学和谢菲尔德大学联合开发的THISL等语音相关系统都采用了连续语音识别技术。
典型的语音识别系统由预处理、特征提取、训练样本、模式匹配四部分组成。具有代表性的方法如下:
(1)特征参数匹配法: 一种传统的模式识别方法: 训练样本、提取特征参数生成模型库; 等待匹配语音提取特征,计算它与模型库中模型的相关度,用似然函数进行判决。特征参数匹配法在中小词汇识别方面的运用很成功。
(2) 隐马尔科夫法(hidden Markov model,HMM):20世纪90年代HMM的出现使得自然语音识别系统取得了实质性的突破。HMM已经成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型实现的。
(3) 人工神经网络(artificial neural network,ANN)法: 本质上是一个自适应非线性动态系统,具有自适应性、并行性、鲁棒性、容错性和学习特性。目前语音识别神经网络主要有多层感知器网、Kohonen自组织神经网和预测神经网络。
语音识别技术不仅为语音检索和浏览提供了技术基础,并且有效地帮助含有语音成分的视频的检索。目前语音识别存在的问题: 说话者语速不一致;大词汇表导致计算量大; 同一音素的发音随上下文变化; 非特定人语音识别; 语音多变性。最根本的问题是语音特征量的提取。
2. 语音检索
由于语音和文字之间的互换性,结合多媒体的文字标注技术,使基于文本的检索技术可以用于语音检索,并且可以用语音命令检索各种用文本标注的多媒体信息。
(1)基于文本:对语音,通常是利用语音识别技术把语音转换成文本,组织成适合全文检索的形式,记录在音频中的对应位置,再采用文本检索方法进行语音的检索。虽然好的连续语音识别在实际应用中识别率不理想,但是ASR(Automated Speech Recognition)识别生成的文本仍然对信息检索有用,因为检索任务只是找出包含在音频数据中的查询词句,而不是要求精确的全文。
(2)基于子词单元:当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇(如人名、地点)不在系统词库中时。一种变通的方法是利用子词(sub word)单元进行索引,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中预先计算好的特征进行匹配。
(3)基于关键词识别:在无约束的语音中自动检测词或短语通常称为关键词的发现(spotting)。利用该技术,识别或标记出长段录音中反映用户感兴趣的事件,这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。
(4)基于说话人的辨认进行分割:简单地辨别出说话人话音的差别,而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。利用这种技术检测视频或声音中说话人的变化,建立索引和确定某种类型的结构,以便于检索。可以用它分割和分析会议录音,分割的区段对应于不同的说话人,可以方便地直接浏览长篇的会议资料。
(5)基于语音命令:利用自动语音识别技术把相应的语音检索命令转换成文本,用于检索用文字标注的各种多媒体信息。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭