当前位置: 首页 > 专利查询>叶睿智专利>正文

一种基于音频内容检索的多媒体资源检索方法技术

技术编号:3044394 阅读:260 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于音频内容检索的多媒体资源检索方法。包括如下步骤:1)预处理服务器将视频和音频转化为标准的待识别语音;2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;3)索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。本发明专利技术利用音频中关键词检出技术,获得了音视频资源内在的语意信息,对文本化的语意信息进行索引,提供了更全面可靠的音视频资源信息索引,可以让检索系统更准确的匹配到多媒体资源,并且定位到检索词在音视频中出现的精确位置。

【技术实现步骤摘要】

本专利技术涉及,特别是涉及用 于检索包括视频、音频形式的资源,找到包含所检索信息的资源并给出所检索 信息在资源中的定位。技术背景在当今数字化与网络化时代,多媒体数据已成为互联网信息高速公路上所 传送数据的主要部分。音频、图像和视频等多媒体内容目前在互联网中占据15%,且该数字还在飞速增长。大容量高速存储系统为音视频的海量存储提供了 基本保障,各行业对音视频的使用越来越广泛。如何从海量的音视频信息中获 取有用的信息,即音视频信息资源的管理和检索显得日益重要,音视频已成为 网络用户最频繁检索的资源之一。目前的主流搜索引擎如Google、 Yahoo、 Baidu 等,己经较好地解决了对互联网络上文本内容的检索,但在音视频检索方面, 这些搜索引擎目前仍依靠检索匹配多媒体资源相关的周边文本信息(例如资源 文件名、资源标记、资源介绍文本等)来实现对文本的搜索。这使得音视频资 源自身的内容没有被很好地识别, 一些缺乏明确文本描述的有用资源被搜索引 擎忽略。目前,常用的信息检索系统,例如数字图书馆系统、知识管理系统, 也都面临着多媒体资源日益成为重要信息载体但缺乏有效检索手段的问题。解 决这个问题的途径之一,就是利用语音识别技术从音视频资源的语音部分检索 出可用文本表达的对应信息,再通过文本检索的方式去索引这些资源。关键词识别就是在连续的无限制的自然语音流中识别出给定的关键词。它 包括两个方面的基本内容, 一个是关键词检出, 一个是关键词确认。关键词检 出是鉴别语音包含哪几个预先输入的关键词,是一个多元判决问题。而关键词 确认则回答是还是不是包含这个关键词,是一个两元判决问题,本专利技术所述 关键词识别技术特制指关键词检出。美尔倒谱系数(Mel-FrequencyCepstrumCoefficients, MFCC)建立在傅立叶和 倒谱分析基础上,反应了音频信号的频域特征。对短时音频帧中的采样点进行 傅立叶变换,得到这个短时音频帧在每个频率上的能量大小,将整个频率带划 分为n个子带,分别计算这n各子带上的总能量,就构成了这个短时音频帧的n 个Mel系数。对提取出来的Md系数再计算其对应的倒谱系数,就是Mel倒谱 系数。倒谱分析是一种非线性信号处理技术,它是同态系统理论的基础,是专门处理通过巻积组合在一起的信号,后来被应用到语音信号的处理中。隐马尔可夫(Hidden Markov Model, HMM)模型是一种基于转移概率和输 出概率的随机模型。它把语音看成由可观察到的符号序列组成的随机过程,符 号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时,为每一 个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。 识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型 进行判决。对于文本无关的说话人识别一般采用各态历经型HMM,对于与文本 有关的说话人识别一般采用从左到右型HMM。 HMM不需要时间归整,节约了 判决时的计算时间和存储量。基于隐马尔科夫模型的关键词识别进行技术是语音检索的一个非常重要的 方面,它在语音的特定内容检索中占有重要位置,由于目前语音识别技术其鲁 棒性和实用性方面的限制,利用连续语音识别建立大词汇量,任意关键词的识 别器并不能达到理想的结果,无法很好的满足语音检索方面的应用要求。而关 键词识别是相对可靠的技术,在语音检索的应用中有更好的应用前景。
技术实现思路
本专利技术的目的是克服现有技术的不足,提供一种基于音频内容检索的多媒 体资源检索方法包括如下步骤1) 预处理服务器将视频和音频转化为标准的待识别语音;2) 语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型 匹配得到语意文本索引;3) 索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。 所述的预处理服务器将视频和音频转化为标准的待识别语音视频和音频中带有一段或多段讲话语音,从输入的视频资源中采用音频分离技术提起出音 频部分的数据,并保持了分离出来的音频和原有视频在时间轴方向的一致,音 频数据经过数字降噪技术处理,能量过低的部分和包含杂音信号的语音段被处 理成静音,转化后,音频输出为标准的待识别语音。所述的语音识别服务器将训练语料训练成声学模型训练语料采用标准汉 语普通话朗读的广播语音,训练语料经过特征提取模块得到语音特征,特征类 型采用美尔倒谱系数,语音特征经过声学模型训练得到隐马尔可夫声学模型。所述的将待识别语音和声学模型匹配得到语意文本索引待识别语音经过 特征提取模块得到待识别语音美尔倒谱系数特征,路径搜索器读取待识别语音美尔倒谱系数特征,在隐马尔可夫声学模型的路径中进行最短路径识别,得到 语音片段对应的语意文本;结合语音时间轴信息,输出包含语意文本和时间起 止点数据的语意文本索引。所述的索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果: 对语音识别服务器输出的语意文本索引,进行倒排索引转化,得到以语意关键 词为主键,关键词出现位置信息序列为键值的倒排索引条目,存储到索引库中, 执行检索时,向检索服务器输入文本形式的关键词或关键词组合,根据检索关 键词读取倒排索引条目,输出关键词出现位置信息序列。所述的语意文本索引是一个二元对,包含了文本关键词、关键词在语音中 一次出现的时间段起点和时间段终点数据。关键词索引是一个三元对,包含了 关键词、关键词对应的视频和音频资源文件号、关键词在语音中一次出现的时 间段起点和时间段终点数据。检索结果是描述了一系列包含所检索关键词的资 源文件,以及在某个资源文件中,出现该关键词语音片段的一系列时间段信息。本专利技术利用音频中关键词检出技术,获得了音视频资源内在的语意信息, 对文本化的语意信息进行索引,提供了更全面可靠的音视频资源信息索引,可 以让检索系统更准确的匹配到多媒体资源,并且定位到检索词在音视频中出现 的精确位置。 附图说明图1是根据本专利技术的音视频内容检索系统总体流程图; 图2是根据本专利技术的音视频预处理流程图; 图3是根据本专利技术的关键词识别流程图; 图4是根据本专利技术的索引归并流程图。具体实施方式基于音频内容检索的多媒体资源检索方法包括如下步骤1) 预处理服务器将视频和音频转化为标准的待识别语音;如图1所示,视 频资料1-1和语音资料1-2被输入到预处理服务器Sl,经过预处理得到标准的 待识别语料l-3。2) 语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型 匹配得到语意文本索引;如图1所示,训练语料1-4被输入到语音识别服务器 S2,训练得到声学模型,存储在S2中,待识别语料1-3和声学模型一起输入到 语音识别服务器S2,匹配得到待识别语料1-3中的语意文本索引信息1-5。3) 索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。如图1所示,索引信息被输入到索引服务器S3,归并入倒排索引库;进行检索时, 检索条件l-6输入到索引服务器S3,S3在索引库中匹配待检索条件中的关键词, 得到匹配记录,归并匹配记录,最终返回检索结果l-7。所述的预处理服务器将视频和音频转化为标准的待识别语音视频和音频 中带有一段或多段讲话语音,从输入的视频资源中采用音频分离技术提起出音 频部分的数据,并保持了分离出来的音本文档来自技高网
...

【技术保护点】
一种基于音频内容检索的多媒体资源检索方法,其特征在于包括如下步骤:1)预处理服务器将视频和音频转化为标准的待识别语音;2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;3)索引 服务器存储和组织关键词索引,并匹配检索条件得到检索结果。

【技术特征摘要】
1. 一种基于音频内容检索的多媒体资源检索方法,其特征在于包括如下步骤1)预处理服务器将视频和音频转化为标准的待识别语音;2)语音识别服务器将训练语料训练成声学模型,并将待识别语音和声学模型匹配得到语意文本索引;3)索引服务器存储和组织关键词索引,并匹配检索条件得到检索结果。2、 根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法, 其特征在于所述的预处理服务器将视频和音频转化为标准的待识别语音视频 和音频中带有一段或多段讲话语音,从输入的视频资源中采用音频分离技术提 起出音频部分的数据,并保持了分离出来的音频和原有视频在时间轴方向的一 致,音频数据经过数字降噪技术处理,能量过低的部分和包含杂音信号的语音 段被处理成静音,转化后,音频输出为标准的待识别语音。3、 根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法, 其特征在于所述的语音识别服务器将训练语料训练成声学模型训练语料采用 标准汉语普通话朗读的广播语音,训练语料经过特征提取模块得到语音特征, 特征类型采用美尔倒谱系数,语音特征经过声学模型训练得到隐马尔可夫声学 模型。4、 根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法, 其特征在于所述的将待识别语音和声学模型匹配得到语意文本索引待识别语 音经过特征提取模块得到待识别语音美尔倒谱系数特征,路径搜索器读取待识 别...

【专利技术属性】
技术研发人员:叶睿智
申请(专利权)人:叶睿智
类型:发明
国别省市:86[中国|杭州]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利