用于语言独立语音索引和搜索的方法和装置制造方法及图纸

技术编号:5500488 阅读:276 留言:0更新日期:2012-04-11 18:40
公开了一种用于移动通信设备中的语言独立语音搜索的方法和装置。该方法可以包括从移动通信设备的用户接收搜索查询(4200),将搜索查询中的话音部分转换成至少涵盖一种语言的语言表示(4300),基于该语言表示生成搜索音素网格(4400),从搜索音素网格中提取查询特征(4500),基于提取的查询特征生成查询特征向量(4600),使用查询特征向量和来自索引数据库的索引特征向量来执行粗搜索(4700),使用粗搜索结果和存储在索引数据库中的索引音素网格来执行精搜索(4800),以及向对话管理者输出精搜索结果(4900)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及移动通信设备,并且特别涉及移动通信设备中的语音索引和搜索。
技术介绍
移动通信设备,诸如蜂窝电话,是被所有语言的人们所使 用的非常普遍的通信设备。该设备的使用己扩展到远远超出了纯粹的 语音通信。现在用户能够使用移动通信设备作为语音记录器来记录注 解、对话、消息等。用户还可以利用语音在设备上对诸如照片、视频 和应用程序这样的内容进行注释。虽然这些能力已经得到扩展,但在移动通信设备上对存储 的音频内容进行搜索的能力是有限的。由于难以用按钮导航内容,因 此移动通信设备用户可能会发现能够迅速找到语音注释的内容、存储 的语音记录的对话、注解和消息是有用的。
技术实现思路
公开了一种用于移动通信设备中的语言独立语音索引和搜 索的方法和装置。该方法可以包括从移动通信设备的用户接收搜索查 询,将搜索査询中的话音部分转换成语言表示,基于该语言表示生成 搜索音素网格,从搜索音素网格中提取查询特征,基于提取的特征生 成查询特征向量,使用查询特征向量和来自索引数据库的索引特征向 量来执行粗搜索,使用粗搜索结果和存储在索引数据库中的索引音素 网格来执行精搜索,并且向对话管理者输出精搜索结果。附图说明为了描述可以得到本专利技术上述的和其他的优点和特征的方 式,通过参考附图中示出的本专利技术的特定实施例,提供了上文简述的 本专利技术的更详细的描述。可以理解的是这些附图仅仅描述了本专利技术的 典型实施例,并且因而并不被视为限定本专利技术的范围,通过使用附图, 可以通过其他的特征和细节来描述和解释本专利技术,其中图1说明了根据本专利技术的可能实施例的移动通信设备的示 例性图示;图2说明了根据本专利技术的可能实施例的示例性移动通信设 备的方框图;图3说明了根据本专利技术的可能实施例的索引和语音搜索引 擎的示例性方框图;以及图4是说明根据本专利技术的一个可能实施例的一个可能的语 音搜索过程的示例性流程图。具体实施例方式本专利技术的其他特点和优势将在下面的描述中阐明,并且通过 描述部分地将变得明显,或可通过本专利技术的实践而被了解。本专利技术的 特点和优势可以通过所附权利要求中所特别指出的设备及组合的方式 来实现和获得。通过下面的描述和所附权利要求,本专利技术的这些和其 他特点将变得更加全面明显,或如这里所阐述的,可以通过专利技术实践 而被了解。下面详细讨论了本专利技术的各种实施例。虽然讨论了具体实现方式,但应该理解,这样做仅出于说明的目的。本领域技术人员将 认识到,在没有脱离本专利技术的精神和范围的前提下,可以使用其他组 件和配置。本专利技术包括多种实施例,诸如方法、装置以及与本专利技术基本 概念相关的其他实施例。7本专利技术涉及语言独立索引和搜索过程,其可用于移动设备上 的语音注释内容和语音消息的快速检索。语音注释或语音消息可以转 换成音素网格,以及由从语音注释或语音消息中自动提取的一元文法(unigram)和二元文法(bigram)特征向量来索引。语音消息或注释被 分割,并且每个音频片段可由调制特征向量表示,其组分是音素网格 的一元文法和二元文法统计。该一元文法统计可以是音素网格的音素 频率计数。该二元文法统计可以是两个连续音素的频率计数。搜索过 程可能涉及两个阶段粗搜索,其查找索引并迅速返回一组候选语音 注释或语音消息;以及精搜索,其通过使用动态编程将查询语音的最 佳路径与候选注释或消息的音素网格进行比较。图1说明了根据本专利技术的可能实施例的移动通信设备110 的示例性图示。虽然图1将移动通信设备110示出为无线电话,但移 动通信设备110可代表具有内部或外部记录和或存储音频的能力的任 何移动或便携设备,包括移动电话、蜂窝电话、无线的无线电装置、 便携计算机、膝上型电脑、MP3播放器、卫星无线电装置、卫星电视、 数字视频记录器(DVR)、电视机顶盒等。图2说明了根据本专利技术的可能实施例的具有语音搜索引擎 270的示例性移动通信设备110的方框图。示例性移动通信设备110可 以包括总线210、处理器220、存储器230、天线240、收发信机250、 通信接口 260、语音搜索引擎270、索引引擎280和输入/输出(I/O) 设备290。总线210可以允许移动通信设备IIO各组件之间的通信。处理器220可以包括解释并执行指令的至少一个常规处理 器或微处理器。存储器230可以是随机存取存储器(RAM)或另一类 型的动态存储设备,其存储由处理器220执行的信息和指令。存储器 230还可以包括只读存储器(ROM),其可以包括常规ROM设备,或 者另一类型的静态存储设备,其存储用于处理器220的静态信息和指 令。收发信机250可以包括一个或多个发射机和接收机。该收发 信机250可以包括足够的功能,以与任何网络或通信站接驳,并且可 以本领域技术人员所知的任何方式由硬件或软件来定义。该处理器220 可与收发信机250协同操作以支持通信网络内的操作。输入/输出设备(1/0设备)290可以包括允许用户向移动通 信设备110输入信息的一个或多个常规输入机制,诸如麦克风、触摸 屏、键区、键盘、鼠标、笔、触笔、语音识别设备、按钮等。输出设 备可以包括向用户输出信息的一个或多个常规机制,包括显示器、打 印机、 一个或多个扬声器、存储介质,诸如存储器、磁或光盘和盘驱 动器等,和/或用于以上的接口。通信接口 260可以包括经由通信网络促迸通信的任何机制。 例如,通信接口 260可以包括调制解调器。可替换地,通信接口 260 可以包括用于协助收发信机250经由无线连接与其他设备和/或系统进 行通信的其他机制。下面将参考图3更详细地讨论语音搜索引擎270和索引引擎 280的功能。移动通信设备110可以响应于处理器220通过执行包含在计 算机可读介质中的指令序列来执行这些功能,所述计算机可读介质诸 如,例如存储器230。可以经由通信接口 260将这些指令从另一计算机 可读介质,诸如存储设备,或从分离的设备读取到存储器230中。如图l一2所示的移动通信设备IIO和相关讨论的意图是对 可在其中实现本专利技术的合适的通信和处理环境提供简洁的、 一般的描 述。虽然不需要,但是将至少部分地在由移动通信设备110,诸如通信 服务器或者通用计算机执行计算机可执行指令,诸如程序模块的一般背景下描述本专利技术。通常,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、对象、组件、数据结构等。此外,本领域技术人 员将意识到,可以在具有许多类型的通信设备和计算机系统配置的通 信网络环境中实践本专利技术的其他实施例,所述许多类型的通信设备和 计算机系统配置包括蜂窝设备、移动通信设备、个人计算机、手持设 备、多处理器系统、基于微处理器的或可编程消费电子设备等等。图3说明了根据本专利技术的可能实施例的具有索引引擎280 和语音搜索引擎270的语音搜索系统300的示例性方框图。索引引擎 280可以包括音频数据库320、索引自动话音识别器(ASR) 330、索引 音素网格生成器340 、索引特征向量生成器345和索引数据库310。 语音搜索引擎270可以包括搜索ASR 350、搜索音素网格生成器360、 搜索特征向量生成器370、粗搜索模块380及精搜索模块390。在索引引擎280中,音频数据库320可以包含音频记录,诸 如语音邮件、会话、注解、消息、注释等,其被输入至索本文档来自技高网...

【技术保护点】
一种用于在移动通信设备中进行语言独立语音索引和搜索的方法,包括: 从所述移动通信设备的用户接收搜索查询; 将所述搜索查询中的话音部分转换成语言表示; 基于所述语言表示生成搜索音素网格; 从所生成的搜索音素网格中提取查 询特征; 基于所提取的查询特征生成查询特征向量; 使用所生成的查询特征向量和来自索引数据库的索引特征向量来执行粗搜索,其中所述索引数据库存储索引特征向量的索引,该索引特征向量的索引来自在所述移动通信设备上存储的音频文件的索引音素 网格; 使用所述粗搜索的结果和存储在所述索引数据库中的所述索引音素网格来执行精搜索; 向对话管理者输出所述精搜索结果。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:马长学李飞鹏
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1