定制声学模型制造技术

技术编号:39718817 阅读:7 留言:0更新日期:2023-12-17 23:25
本公开涉及定制声学模型

【技术实现步骤摘要】
定制声学模型
[0001]分案说明
[0002]本申请是申请日为
2019
年5月
14


申请号为
201910400081.7、
题为“定制声学模型”的专利技术专利申请的分案申请



[0003]所公开的技术涉及自动语音识别
(ASR)。
具体地,所公开的技术涉及智能语音识别系统中的定制声学模型的创建

标识

选择和实现


技术介绍

[0004]语音识别系统在当今社会中变得更加普遍

越来越多的日常设备
(
例如,电器

车辆

移动设备等
)
正在配备有语音识别功能

问题是这些日常设备无法基于从用户接收到的语音音频来提供有意义的响应

该问题的根本原因之一是日常设备和
/
或与其连接的本地或远程服务无法将接收到的语音音频准确地转换为适当的转录
(transcription)。
通常,使用声学模型将接收到的语音音频转换为音素
(phoneme)。
然而,这些日常设备和
/
或与其连接的本地或远程服务使用未针对其
(i)
环境
、(ii)
预期使用状况


/

(iii)
预期用例结果而进行定做的声学模型

因此,这些具有语音识别功能的日常设备无法将接收到的语音音频准确地识别为可靠的转录
(
其中,根据可靠的转录,可以将有用的结果传送回用户,并且根据该结果,用户或用户的设备可以适当地进行响应
)。
[0005]以下提供该问题的示例

假设咖啡店决定将他们的浓缩咖啡机升级为声音激活的全新高科技机器
(
即,包含语音识别系统
)。
由浓缩咖啡机实现的声学模型是通用的,并且尚未根据其使用的环境进行定制

这家特别的咖啡店拥有简约的工业装饰,使得声响的回声和混响远远超过其他环境中的典型回声和混响

此外,浓缩咖啡机被定位,使得用于接收顾客订单的区域位于浓缩咖啡机的一侧,水槽位于浓缩咖啡机的前面,而磨豆机位于浓缩咖啡机的另一侧

不用说,浓缩咖啡机的语音识别系统接收到很多背景噪声

此外,咖啡店的温度倾向于偏暖,并且由于持续使用,浓缩咖啡机的组件变得非常热

这些温度使得一个或多个麦克风和相关电子组件的特性表现超出正常范围

所有这些因素与通用声学模型相结合使得浓缩咖啡机具有非常不准确的转录和响应,以至于使用浓缩咖啡机的语音识别特征是不切实际的

[0006]这些问题提供了开发能够实现声学模型技术的机会,该声学模型可以针对特定设备进行定做,并且可以基于各种环境和操作状况
(
例如,上面提到的那些环境和操作状况
)
来进行定做

所公开的技术解决了这些问题,并且能够提供更准确的语音识别系统和有意义的结果


技术实现思路

[0007]通常,所公开的技术涉及用于分析表达的自动语音识别
(ASR)。
具体地,所公开的技术涉及标识

选择和实现语音识别系统中的声学模型,使得可以向终端用户提供有意义
的结果

所公开的技术能够确定,在接收到语音音频以及指示设备的类型和
/
或设备的一个或多个状况
(
例如,终端用户设备,诸如浓缩咖啡机

或洗衣机

或车辆
)
的其他数据
(
即,元数据
)
时,应实现哪个声学模型

所公开的技术还提供了一种语音识别系统,该语音识别系统具有允许产品制造商或开发者选择应实现或应最有可能实现哪种类型的声学模型以能够提供有意义的结果的界面

[0008]所公开的技术的特定方面在权利要求书

说明书和附图中进行描述

附图说明
[0009]图1是示出由语音识别和自然语言理解系统实现的通用框架的框图

[0010]图2是示出用于自然语言理解
(NLU)
的声学模型和语言模型之间的交互的示例实施例的框图

[0011]图3示出了其中可以实现各种声学模型的示例环境的图

[0012]图4示出了其中可以实现各种声学模型的图3的环境的示例实现方式

[0013]图5示出了其中可以实现各种声学模型的图3的环境的示例实现方式

[0014]图6示出了其中可以实现各种声学模型的图3的环境的示例实现方式

[0015]图7示出了其中可以实现各种声学模型的图3的环境的示例实现方式

[0016]图8示出了其中可以训练定制声学模型的图3的环境的示例实现方式

[0017]图9是可以实现图3的环境的各种组件的示例计算机系统的框图

具体实施方式
[0018]参考附图进行以下详细描述

描述示例实现方式是为了说明所公开的技术,而不是限制其范围,范围由权利要求限定

本领域普通技术人员将认识到下面的描述的各种等同变化

[0019]图1是示出由语音识别和自然语言理解系统
(
例如,自然语言理解平台
/
服务器
)
实现的通用框架的框图

在语音识别和自然语言理解系统的现有技术实现方式中,通常首先应用语音识别以产生单词序列

或单词序列假设的集合

有时,这种类型的系统被称为声学识别和语言,或语言学,识别的组合

语音识别输出被发送到
NLU
系统以提取含义

[0020]参考图1,通用框架
100
包括接收包括自然语言表达的语音音频

语音音频的示例可以是人讲述短语“冰淇淋甜筒”的录音

语音音频可以从任意来源
(
例如,移动电话

洗衣机

车辆等
)
接收

[0021]然后,声学前端
102
使用声学模型
103
分析语音音频,以从语音音频中提取音素

这通常被称为声学识别

该操作的示例可以是基于接收到的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种提供平台以用于配置特定于设备的语音识别的方法,所述方法包括:使用定制噪声数据和干净语音数据来训练定制声学模型;提供包括经训练的定制声学模型的至少两个声学模型的集合;以及配置语音识别系统以通过实现所述至少两个声学模型中的所选择的声学模型,来执行特定于设备的语音识别
。2.
根据权利要求1所述的方法,还包括:通过以下操作来执行所述特定于设备的语音识别:从特定类型的设备接收包括自然语言表达的语音音频和与所接收到的语音音频相关联的元数据;根据所接收到的元数据来选择所述至少两个声学模型的集合中的所实现的声学模型;以及使用根据所接收到的元数据而选择的声学模型来从包括在所接收到的语音音频中的所述自然语言表达中识别语音
。3.
根据权利要求2所述的方法,其中,所述元数据根据所述设备的特定类型来标识所实现的声学模型
。4.
根据权利要求2所述的方法,其中,所述元数据标识所述设备的特定设备状况,并且所述语音识别系统根据所述特定设备状况来选择所实现的声学模型
。5.
根据权利要求1所述的方法,其中,所选择的声学模型是由开发者选择的
。6.
根据权利要求1所述的方法,还包括:接收适用于特定类型的设备的定制声学模型;以及在所述用户界面内提供所述定制声学模型以被选择作为所实现的声学模型
。7.
根据权利要求1所述的方法,还包括:从开发者接收适用于特定类型的设备的训练数据;使用所接收到的训练数据来训练声学模型;以及在所述用户界面内提供所训练的声学模型以作为所实现的声学模型
。8.
一种使用平台用于配置特定于设备的语音识别的方法,所...

【专利技术属性】
技术研发人员:裴沐湖莫轲文
申请(专利权)人:声音猎手公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1