使用内容和扬声器信息进行音频信息检索的方法和装置制造方法及图纸

技术编号:2886165 阅读:198 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种根据音频内容和演讲人标识检索音频信息的方法和装置。基于内容和基于演讲人的音频信息结果被结合在一起以提供对音频信息的引用。一个检索同包含一个文本串及一个给定的演讲人标识的文本查询相对应的信息的查询搜索系统。一个对音频信息进行转换并建立索引以创建以时间标记的内容索引文件和演讲人索引文件的索引系统。一个使用所产生的内容和演讲人索引,根据音频内容和演讲人标识执行查询-文档匹配的音频检索系统。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及信息检索系统,更确切地,涉及从一个多媒体数据库文件中检索满足用户指定要求的多媒体信息,如音频和视频信息的方法和装置。信息检索系统主要集中在从大的文本集合中检索文本文档。文本检索的基本原理已经充分地提出并整理发布。例如,可参见G.Salton,Automatic Text Processing,Addison-Wesley,1989。索引是一种将文档描述同查询描述进行匹配的机制。索引建立阶段(indexingphase)用一组字或词句对文档进行描述,而检索阶段(retrieval phase)用一组字或词句对查询进行描述。当文档描述同查询描述匹配时一个文档(或其中的一部分)得到检索。多媒体对象,例如音频和视频文件所需的数据检索模型同文本文档所需的模型有很大的不同。对这些多媒体信息建立索引的标准特征集合有一点共性。对音频数据库建立索引的一种方法是使用某种音频提示,例如鼓掌,音乐或演讲。相似地,对视频信息建立索引的一种方法是使用关键帧,或相片的变化。对于有影响的演讲中的音频和视频信息,例如从广播中摘出的音频和视频信息,对应的文本可以使用语音识别系统得到,而转换文本可以用作建立相关音频(及视频)的索引。当前的音频信息检索系统包含两个部分,即一个语音识别系统,用于将音频信息转换为用于建立索引的文本,和一个基于文本的信息检索系统。语音识别系统一般由三个部分组成,即词汇表,语言模型和一组针对词汇表中每个词的发音。词汇表是由语音识别器用来将语音翻译为文本的一组词。作为解码处理的一部分,该识别器将来自语音输入的声音同词汇表中的词进行匹配。因此,词汇表定义了可以被转换的词。如果一个词不在词汇表中,则该词将得不到识别,不可识别的词必须首先被加入到词汇表中。语言模型是同特定领域相关的词汇表中一系列词的数据库。其中还包括这些词以特定次序出现时的一组概率。当使用语音模型时,语音识别器的输出将偏向高概率词序。这样,正确的解码处理是判断用户所说的一系列词是否在语言模型中具有高概率。这样,当用户说了一个不常见的词序时,解码性能将下降。词的识别完全基于它的发音,也就是说,词的语音表示。为了得到最好的准确率,必须使用同特定领域相关的语言模型。建立这样一个语言模型需要明确的文本转换及语音。基于文本的信息检索系统一般分两步进行工作。第一步是离线(off-line)建索引阶段,这时会收集同文本文档相关的统计信息来建立索引。第二步是在线(on-line)搜索并检索阶段,使用该索引来进行查询-文档匹配,随后将相关的文档(及附加信息)返回给用户。在建立索引阶段,会对语音识别系统的文本输出进行处理以得到在检索阶段用于快速搜索的文档描述。在建立索引过程中,一般按序执行下列操作(i)标记化(tokenization),(ii)标记语音段落,(iii)形态(morphological)分析,及(iv)使用标准的结束词(stop-word)列表删除结束词。标记化探测语句边界。形态分析是一种语音信号处理的形式,它将名词分解为其词根,并附加一个指示复数形式的标记。同样,动词被分解为指示人,时态和语气的单元,并附加该动词的词根。关于索引建立过程的一般性讨论可以参见于在此作为参照的S.Dharanipragada et al.,"Audio-Indexing forBroadcast News,"in Proc.SDR97,1997。当用户使用这样一个基于内容的音频信息检索系统来检索其中包含一或多个在用户定义的查询中定义的关键词的音频文件时,当前的音频信息检索系统不允许用户根据演讲人标识有选择性地检索相关的音频文件。这样,需要一种方法和装置,可以根据演讲人标识和音频内容来检索音频信息。一般而言,这里所揭示的是一种根据音频内容和演讲人标识用于检索音频信息的方法和装置。所揭示的音频检索系统将基于内容和基于演讲人的音频信息检索的结果结合在一起来提供对音频信息(并间接对视频)的引用。根据本专利技术的一个方面,查询搜索系统检索同包含一个文本串(一或多个关键词)的文本查询及给定演讲人的标识相对应的信息。用户定义的查询约束(constraints)同经索引的音频或视频数据库(或两者)进行比较并对包含与给定演讲人所说的指定词相关的音频/视频片段进行检索,展现给用户。所揭示的音频检索系统由两个主要部分组成。一个检索系统,转换音频信息并对其建立索引以创建用时间标记的内容索引文件和演讲人索引文件;一个音频检索系统使用所生成的内容索引和演讲人索引,根据音频内容和演讲人标识执行查询-文档匹配。将相关的文档(及可能的附加信息)返回给用户。通过比较内容和演讲人两个领域中文档片段的起止时间,对符合用户指定内容和演讲人约束的文档进行标识。根据本专利技术的另一个方面,内容和演讲人两个领域之间交迭的部分也已考虑在内。那些交迭较多的文档片段权重越高。通常,对于符合用户定义内容和演讲人约束的文档,使用下面的等式计算出一个组合分值分配给该文档组合分值=(分级文档分值+(lambda*演讲人片段分值))*交迭因子分级文档分值对基于内容的信息检索进行分级,例如,使用Okapi等式。演讲人片段分值是一个距离度量值,用来指示演讲人片段和所登记的演讲人信息之间的接近程度,它可以在索引建立阶段进行计算。Lambda是在对演讲人进行标识的过程中一个用于记录可信度的变量,它是一个介于0和1之间的值。通常,交迭因子用来补偿完全没有交迭的片段,是一个介于0和1之间的值。根据本专利技术该组合分值可以用来对返回给用户的所标识的文档进行分级排序,将最匹配的片段放在列表的头部。通过下面所参照的详细描述和附图,可以更完整地理解本专利技术以及本专利技术进一步的特征和优点。附图说明图1是根据本专利技术的一个音频检索系统的方框图;图2A是图1内容索引文件中文档数据库的一张表;图2B是图1内容索引文件中文档存储块(chunk)索引的一张表;图2C是图1内容索引文件中单字组(unigram)文件(词频)的一张表;图2D是图1内容索引文件中倒排(inverse)文档索引(IDF)的一张表;图3是图1中演讲人索引的一张表;图4根据本专利技术示出了一个有代表性的演讲人的登记过程;图5是一张流程图,描述了图1中音频检索系统所执行的一个示例性的索引建立系统过程;及图6是一张流程图,描述了图1中音频检索系统所执行的一个示例性的内容和演讲人音频检索系统过程。在图1中示出了根据本专利技术的一个音频检索系统100。如下面所进一步讨论的,该音频检索系统100结合了两种根据音频内容以及演讲人标识来搜索音频资料以提供对音频信息(及间接对视频)引用的不同方法。特别地,用户指定的基于内容的检索结果,例如Web搜索引擎的结果,根据本专利技术将同基于演讲人的检索结果结合在一起。本专利技术允许一个查询搜索系统检索同包含一个附加约束,也就是给定演讲人的标识的文本查询相对应的信息。这样,一个用户查询包括一个文本串,包含了一或多个关键词,以及给定演讲人的标识。本专利技术将用户定义查询的约束同一个经索引的音频及/或视频数据库进行比较,并检索相关的包含给定演讲人所说的指定词的音频/视频片段。如图1所示,本专利技术的音频检索系统100包含两个主要部分,也就是说,一个转换音频信息并对其建立索引的音频检索系统50本文档来自技高网...

【技术保护点】
一种从一或多个音频源检索音频信息的方法,所述方法包括步骤:接收用户查询,该查询的约束至少要指定一个内容和一个演讲人;并且将所述用户查询同所述音频源的一个内容索引和一个演讲人索引进行比较以识别满足用户查询要求的音频信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:霍梅沃恩萨德莫哈姆德贝基阿兰查尔斯路易斯特里特施勒玛荷什维斯万纳坦
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1