语音对话方法和系统技术方案

技术编号:3549992 阅读:225 留言:0更新日期:2012-04-11 18:40
一种语音对话电子设备(300)包括以下功能:接收(305,105)包含具有实例化变量(215)的请求短语的语音短语,生成(335,115)实例化变量的基音与发音特征(315),和执行实例化变量的语音识别(319,125)以确定最相似的声学状态组(235)。电子设备利用该实例化变量的最相似的声学状态组和基音与发音特征生成(335,140)实例化变量的合成值。电子设备利用一组预先输入的唯一确定的变量的值,其中这些值与由每个值的接收确定的最相似的声学状态组和基音与发音特征关联在一起,以消除(425,430)最新接收的实例化变量的歧义。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术属于语音对话系统领域,特别是使用者说出短语进行确认的领域。
技术介绍
当前对话系统通常采用语音作为输入和输出形式。语音识别功能用于将语音输入转换为文本,而文本到语音(TTS)功能用于将文本表现为语音输出。在很多对话系统中,TTS主要用于提供音频反馈以确认语音输入。例如,在手持式通讯设备中,用户可以使用语音输入来进行姓名拨号。当使用TTS来确认语音输入时提高了可靠性。然而,使用TTS的传统确认功能占用了大量时间和资源研究每一种语言,同时也消耗了手持式通信设备中大量的存储资源。这成为使用这种对话系统的多语言设备在全世界推广的主要问题。附图说明本专利技术采用示例进行说明但不限于附图,其中类似的参考表示类似元件,并且其中:图1是表示根据本专利技术一些实施例的语音对话方法的流程图;图2是表示根据本专利技术一些实施例的示范语音短语分析图表;图3是表示根据本专利技术一些实施例的执行语音对话的电子设备的方块图;以及图4是表示根据本专利技术一些实施例的语音对话方法的流程图。熟练技术人员明白,附图中的元件仅简明地示出,而不一定按比例绘制。例如,为了更好的理解本专利技术的实施例,附图中的一些元件的尺寸相对于其他元件被放大。-->具体实施方式在对根据本专利技术的语音对话系统的特定实施例进行详细描述之前,首先说明,本专利技术的实施例主要集中在有关语音对话系统的方法步骤和装置构件的组合。因此,装置构件和方法步骤在图中采用常用符号适当地进行表示,仅表示那些与理解本专利技术相关的特定细节,以避免将本公开与那些对具有本说明书中益处的本领域普通技术来说已经明显的细节相混淆。同样应当理解,除非特别说明其特定含义,否则这里使用的术语和表述具有这些术语和表述各自相应调查和研究领域的普通含义。在本申请中,关系术语例如第一和第二,顶部和底部,仅仅是用来区分一个实体或动作与另一个实体或动作并不要求或暗示这些实体或动作之间的实际关系或顺序。术语“包含”或其他任何类似的变化旨在表示非排他性包含,例如包含一系列要素的过程、方法、物品或装置不仅仅包含这些要素,还可以包含其他没有特别列出的要素或者这些步骤、方法、物品或装置中固有的要素。由“包含……”引导的要素,没有更多限制时,并不排除在包含该要素的过程、方法、物品或装置中还存在同样的要素。在本文中使用的“组”可以表示空的组。这里使用的术语“另一个”被定义为至少一第二或者更多。这里使用的术语“包括”和/或“具有”被定义为“包含”。这里使用的与电光技术相关的术语“耦合的”被定义为连接,但不一定表示直接地、也不一定表示机械地。这里使用的“程序”被定义为设计用于在计算机系统上执行的一系列指令。“程序”,或“计算机程序”,可以包括子程序、功能、过程、对象方法、对象实现、可执行应用程序、小应用程序、伺服程序、源代码、目标代码、共享程序库/动态加载程序库和/或设计用于在计算机系统上执行的指令序列。-->附图1、2和3,展示了根据本专利技术一些实施例的语音对话方法的一些步骤的流程图100(附图1),语音短语的分析图以及电子设备300(图3)的方块图。在步骤105(附图1),用户在对话中发出的语音短语由电子设备300的麦克风305(附图3)接收并由电子设备300利用常规技术转换为数字采样信号307。语音短语由包含实例化变量的请求短语组成,且可以进一步包含不可变片段。在附图2所示的实施例中,语音短语为“拨Tom MacTavish”。在这个语音短语中,“拨”是不可变片段,而“Tom MacTavish”是实例化变量的名字(也就是,变量的特定值)。这个实施例中的不可变片段是命令<拨>,并且这个变量在示例中具有变量形式就是<拨名字>。这个语音短语可以选择性的不包含不可变片段或者包含一个以上的不可变片段,也可以包含一个以上实例化变量。例如,为响应接收到的附图2所示的语音短语示例,电子设备可以合成响应“请重复名字”,因为正确的语音短语可以只包含名字,没有不可变片段。在另一个实施例中,语音短语可以是“把这个图片用邮件发送给Jim Lamb”。在这个示例中,“用邮件发送”是不可变片段,“图片”是类型<用邮件发送目标>的实例化变量,“Jim Lamb”是类型<拨名字>的实例化变量。电子设备300以常用方式存储各组变量和不可变片段值的数学模型,例如隐马尔可夫模型(HMM)。这里可以有一个以上的HMM,例如一个用于不可变片段,而一个用于各种变量类型的每一个,或者HMM可以是所有变量类型和不可变片段的联合模型。在步骤110(附图1),电子设备300的语音识别功能310(附图3)在定时间隔220(附图2)对语音短语的数字化电信号进行处理,例如10毫秒,并生成基音与发音特征315,而且生成语音短语的声学向量。这些声学向量可以是Mel频率倒谱系数(MFCC)或者是另一个常规(或非常规的)类型的特征向量。这些可能更通常地被作为声学特征描述。在附图2所示的示例中,声学向量用一系列逻辑框225表示,而基音与发音特征用一系列逻辑框230表示。根据由至少一种类型的变量(例如<拨名字>)的一组值(例如Tom MacTavish,Tom Lynch,Steve Nowlan,Changxue Ma,……)-->的声学状态得到的声学状态的存储模型,语音识别功能310从最可能代表接收到的每一个实例化变量和不可变片段(当存在不可变片段时)的声学向量的存储模型中选择一组声学状态。在一个示例中,存储模型是常规隐马尔可夫模型(HMM),但是也可以采用其他模型。在更普通的情况下,定义表示变量存储值的状态,使得它们可以被该数学模型用于查找最相匹配的一组由接收到的音频片段得到的声学特征和一组表示变量值的状态。尽管在常规语音识别系统中HMM模型被广泛用于实现这种目的,但是其他模型是公知的并且其他模型是可以被开发的;这些模型可以被有益地用于本专利技术的实施例中。被选择的不可变片段的声学状态组确定该不可变片段的值325(附图3),在步骤120完成不可变片段的语音识别。最能代表实例化变量的该组声学状态被称为为该实例化变量的最相似的声学状态组320,在步骤125,最相似的声学状态组的选择完成了的实例化变量语音识别部分。在附图2所示的示例中,实例化变量“Tom MacTavish”的最相似的状态组用一系列声学状态235表示。<本文档来自技高网...

【技术保护点】
一种语音对话方法,包括:    接收语音短语,该语音短语包含具有实例化变量的请求短语;    生成所述实例化变量的基音与发音特征;    执行对所述实例化变量的话音识别,以确定最相似的声学状态组;以及    利用所述最相似的声学状态组和所述实例化变量的所述基音与发音特征生成所述实例化变量的合成值。

【技术特征摘要】
【国外来华专利技术】US 2005-4-29 11/118,6701.一种语音对话方法,包括:
接收语音短语,该语音短语包含具有实例化变量的请求短语;
生成所述实例化变量的基音与发音特征;
执行对所述实例化变量的话音识别,以确定最相似的声学状态组;
以及
利用所述最相似的声学状态组和所述实例化变量的所述基音与发
音特征生成所述实例化变量的合成值。
2.根据权利要求1所述的语音对话方法,其中所述请求短语进一
步包括与所述实例化变量相关联的不可变片段,进一步包括:
执行对所述不可变片段的话音识别;以及
呈现声学存储的响应短语。
3.根据权利要求1所述的语音对话方法,其中执行对所述实例化
变量的话音识别包括:
确定所述实例化变量的声学特征;以及
使用存储查找值的数学模型和所述声学特征确定所述最相似的声
学状态组。
4.根据权利要求3所述的语音对话方法,其中所述存储查找值的
数学模型是隐马尔可夫模型。
5.根据权利要求1所述的语音对话方法,其中生成所述实例化变
量的合成值是在所述最相似的声学状态组的量度符合标准时执行的,
并且进一步包括:
在所述最相似的声学状态组的量度不符合该标准时,呈现声学存
储的未辨别词汇响应短语。
6.一种语音对话电子设备,包括:
用于接收语音短语的装置,该语音短语包含具有实例化变量的请
求短语;
用于生成所述实例化变量的基音与发音特征的装置;
用于执行对所述实例化变量的话音识别以确定最相似的声学状态
组的装置;以及
利用所述最相似的声学状态组和所述实例化变量的所述基音与发
音特征生成所述实例化变量的合成值的装置。
7.根据权利要求6所述的语音对...

【专利技术属性】
技术研发人员:马长学程燕鸣刘宸特德马祖尔凯维奇史蒂文J诺兰詹姆斯R塔利韦元军
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利