一种基于音频内容检索的多媒体资源检索方法技术

技术编号：3044394 阅读：260 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于音频内容检索的多媒体资源检索方法。包括如下步骤：１）预处理服务器将视频和音频转化为标准的待识别语音；２）语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；３）索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。本发明专利技术利用音频中关键词检出技术，获得了音视频资源内在的语意信息，对文本化的语意信息进行索引，提供了更全面可靠的音视频资源信息索引，可以让检索系统更准确的匹配到多媒体资源，并且定位到检索词在音视频中出现的精确位置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，特别是涉及用于检索包括视频、音频形式的资源，找到包含所检索信息的资源并给出所检索信息在资源中的定位。技术背景在当今数字化与网络化时代，多媒体数据已成为互联网信息高速公路上所传送数据的主要部分。音频、图像和视频等多媒体内容目前在互联网中占据15%，且该数字还在飞速增长。大容量高速存储系统为音视频的海量存储提供了基本保障，各行业对音视频的使用越来越广泛。如何从海量的音视频信息中获取有用的信息，即音视频信息资源的管理和检索显得日益重要，音视频已成为网络用户最频繁检索的资源之一。目前的主流搜索引擎如Google、 Yahoo、 Baidu 等，己经较好地解决了对互联网络上文本内容的检索，但在音视频检索方面，这些搜索引擎目前仍依靠检索匹配多媒体资源相关的周边文本信息(例如资源文件名、资源标记、资源介绍文本等)来实现对文本的搜索。这使得音视频资源自身的内容没有被很好地识别，一些缺乏明确文本描述的有用资源被搜索引擎忽略。目前，常用的信息检索系统，例如数字图书馆系统、知识管理系统，也都面临着多媒体资源日益成为重要信息载体但缺乏有效检索手段的问题。解决这个问题的途径之一，就是利用语音识别技术从音视频资源的语音部分检索出可用文本表达的对应信息，再通过文本检索的方式去索引这些资源。关键词识别就是在连续的无限制的自然语音流中识别出给定的关键词。它包括两个方面的基本内容，一个是关键词检出，一个是关键词确认。关键词检出是鉴别语音包含哪几个预先输入的关键词，是一个多元判决问题。而关键词确认则回答是还是不是包含这个关键词，是一个...

【技术保护点】
一种基于音频内容检索的多媒体资源检索方法，其特征在于包括如下步骤：１）预处理服务器将视频和音频转化为标准的待识别语音；２）语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；３）索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。

【技术特征摘要】
1. 一种基于音频内容检索的多媒体资源检索方法，其特征在于包括如下步骤1)预处理服务器将视频和音频转化为标准的待识别语音；2)语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；3)索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。2、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的预处理服务器将视频和音频转化为标准的待识别语音视频和音频中带有一段或多段讲话语音，从输入的视频资源中采用音频分离技术提起出音频部分的数据，并保持了分离出来的音频和原有视频在时间轴方向的一致，音频数据经过数字降噪技术处理，能量过低的部分和包含杂音信号的语音段被处理成静音，转化后，音频输出为标准的待识别语音。3、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的语音识别服务器将训练语料训练成声学模型训练语料采用标准汉语普通话朗读的广播语音，训练语料经过特征提取模块得到语音特征，特征类型采用美尔倒谱系数，语音特征经过声学模型训练得到隐马尔可夫声学模型。4、根据权利要求1所述的一种基于音频内容检索的多媒体资源检索方法，其特征在于所述的将待识别语音和声学模型匹配得到语意文本索引待识别语音经过特征提取模块得到待识别语音美尔倒谱系数特征，路径搜索器读取待识别...

【专利技术属性】
技术研发人员：叶睿智，
申请(专利权)人：叶睿智，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人