使用内容和扬声器信息进行音频信息检索的方法和装置制造方法及图纸

技术编号：2886165 阅读：198 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开一种根据音频内容和演讲人标识检索音频信息的方法和装置。基于内容和基于演讲人的音频信息结果被结合在一起以提供对音频信息的引用。一个检索同包含一个文本串及一个给定的演讲人标识的文本查询相对应的信息的查询搜索系统。一个对音频信息进行转换并建立索引以创建以时间标记的内容索引文件和演讲人索引文件的索引系统。一个使用所产生的内容和演讲人索引，根据音频内容和演讲人标识执行查询－文档匹配的音频检索系统。（*该技术在2020年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索系统，更确切地，涉及从一个多媒体数据库文件中检索满足用户指定要求的多媒体信息，如音频和视频信息的方法和装置。信息检索系统主要集中在从大的文本集合中检索文本文档。文本检索的基本原理已经充分地提出并整理发布。例如，可参见G.Salton，Automatic Text Processing，Addison-Wesley，1989。索引是一种将文档描述同查询描述进行匹配的机制。索引建立阶段(indexingphase)用一组字或词句对文档进行描述，而检索阶段(retrieval phase)用一组字或词句对查询进行描述。当文档描述同查询描述匹配时一个文档(或其中的一部分)得到检索。多媒体对象，例如音频和视频文件所需的数据检索模型同文本文档所需的模型有很大的不同。对这些多媒体信息建立索引的标准特征集合有一点共性。对音频数据库建立索引的一种方法是使用某种音频提示，例如鼓掌，音乐或演讲。相似地，对视频信息建立索引的一种方法是使用关键帧，或相片的变化。对于有影响的演讲中的音频和视频信息，例如从广播中摘出的音频和视频信息，对应的文本可以使用语音识别系统得到，而转换文本可以用作建立相关音频(及视频)的索引。当前的音频信息检索系统包含两个部分，即一个语音识别系统，用于将音频信息转换为用于建立索引的文本，和一个基于文本的信息检索系统。语音识别系统一般由三个部分组成，即词汇表，语言模型和一组针对词汇表中每个词的发音。词汇表是由语音识别器用来将语音翻译为文本的一组词。作为解码处理的一部分，该识别器将来自语音输入的声音同词汇表中的词进行匹配。因此，词汇表定义...

【技术保护点】
一种从一或多个音频源检索音频信息的方法，所述方法包括步骤：接收用户查询，该查询的约束至少要指定一个内容和一个演讲人；并且将所述用户查询同所述音频源的一个内容索引和一个演讲人索引进行比较以识别满足用户查询要求的音频信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：霍梅沃恩萨德莫哈姆德贝基，阿兰查尔斯路易斯特里特施勒，玛荷什维斯万纳坦，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人