用于无监督语言模型权重选择的最佳路径变化率制造技术

技术编号:31891708 阅读:21 留言:0更新日期:2022-01-15 12:19
一种选择用于执行自动语音识别的最优语言模型权重(LMW)的方法,该方法包括:使用语言模型将测试音频解码成词格;使用多个LMW中的第一LMW来分析词格,以确定第一多个最佳路径;使用多个LMW中的第二LMW来分析词格,以确定第二多个最佳路径;基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR来确定第一LMW为最优LMW。中的最小BCPR来确定第一LMW为最优LMW。中的最小BCPR来确定第一LMW为最优LMW。

【技术实现步骤摘要】
【国外来华专利技术】用于无监督语言模型权重选择的最佳路径变化率
[0001]相关申请的交叉引用
[0002]本申请要求于2019年2月19日提交的第16/279,491号美国申请的优先权,该美国申请的公开内容通过引用整体并入本文。

技术介绍

[0003]在现有技术的语音识别系统中,独立地训练声学模型P(A|W)和语言模型P(W)。在解码期间,来自声学模型的似然得分和来自语言模型的概率在不同的标度上,因此它们需要与特定的标度组合:score(W)=log(P(A|W))+LMW
×
log(P(W)),其中LMW是称为语言模型权重的标度值。
[0004]在许多实词应用中,一个训练过的声学模型可与领域特定的语言模型一起用于不同识别任务。LMW需要针对每个任务进行调节。
[0005]图1示出了现有技术的LMW选择方法100,LMW选择方法100通过针对不同任务的不同开发集合的性能来选择LMW。这通常需要与真实测试数据非常相似的人类转录的开发数据集。然后模型需要用于以不同LM权重进行解码。然后将解码结果与真实参考进行比较以获得字错误率(WER)。最后,选择具有最小WER的LMW作为最优LMW。
[0006]现有技术的这种选择最优LMW的方法需要与测试数据非常相似的开发数据集。可能难以收集这种开发数据,这种开发数据也足够大而不能提供可靠的WER。此外,这种现有技术的方法需要对每个LMW计算WER。

技术实现思路

[0007]在一个实施例中,提供一种用于选择用于执行自动语音识别的最优语言模型权重(LMW)的方法,该方法包括:使用语言模型将测试音频解码成词格;使用多个LMW中的第一LMW分析词格,以确定第一多个最佳路径;使用多个LMW中的第二LMW分析词格,以确定第二多个最佳路径;基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR,确定第一LMW为最优LMW。
[0008]在一个实施例中,提供一种用于选择用于执行自动语音识别的最优LMW的设备,该设备包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取程序代码并根据程序代码的指令操作,程序代码包括:解码代码,配置成使得至少一个处理器使用语言模型将测试音频解码成词格;第一分析代码,配置成使得至少一个处理器使用多个LMW中的第一LMW分析词格,以确定第一多个最佳路径;第二分析代码,配置成使得至少一个处理器使用多个LMW中的第二LMW分析词格,以确定第二多个最佳路径;第一确定代码,配置成使得至少一个处理器基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及第二确定代码,配置成使得至少一个处理器基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR,确定第一LMW为最优LMW。
[0009]在一个实施例中,提供一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储多个指令,多个指令包括一个或多个指令,当由用于选择用于执行自动语音识别的最优语言模型权重(LMW)的设备的一个或多个处理器运行时,一个或多个指令使得一个或多个处理器:使用语言模型将测试音频解码成词格;使用多个LMW中的第一LMW分析词格,以确定第一多个最佳路径;使用多个LMW中的第二LMW分析词格,以确定第二多个最佳路径;基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR,确定第一LMW为最优LMW。
附图说明
[0010]图1是用于选择语言模型权重的方法的图。
[0011]图2是根据实施例的可实现本文描述的方法、装置和系统的环境的图。
[0012]图3是图2的一个或多个设备的示例组件的图。
[0013]图4是根据实施例的用于选择最优语言模型权重的方法的流程图。
[0014]图5是演示根据实施例的最佳路径变化率的变化的流程图。
[0015]图6是根据实施例的用于选择用于执行自动语音识别的最优语言模型权重的方法的流程图。
具体实施方式
[0016]语言模型权重(LMW)在语音识别系统中用作将声学模型和语言模型组合的缩放因子。用于评估的LMW通常选择为在开发集合上产生最佳性能的LMW。假设开发集合的数据分布和评估集合的数据分布相似。在实践中,满足该假设并保持开发集合较小,可能不容易实现。因为选择LMW进行评估,所以最好直接在评估集合上找到最优LMW。
[0017]本文描述的实施例包括一种基于最佳路径变化率(BPCR)的无监督LMW选择方法。基本思想是基于这样的观察:当语言模型权重在一定范围内移动时,由WER测量的1

最佳解码结果通常是凸形状。此外,当LMW接近最优点时,最佳路径变化率非常小。对各种语料的实验结果表明:基于BPCR的方法可以以高精度找到最优LMW。所提出的方法可用于许多实际应用,例如LMW对不同领域的快速适应。
[0018]在详细描述中出现的缩略语和术语的定义包括如下:
[0019]语音识别系统:一种计算机程序,能够识别语音信号并将语音信号转换成书写的字符/单词。
[0020]语言模型权重(LMW):语言模型权重在语音识别系统中用作将声学模型和语言模型组合的缩放因子。
[0021]词格:词格是表示识别的变体的有向图。解码词格包含数百个或数千个可能的解码路径及其声学得分和语言模型得分。
[0022]最佳路径:词格中具有最大得分的路径,该得分是由语言模型权重平衡的声学得分和语言模型得分的组合。最佳路径通常用作解码假设。
[0023]字错误率(WER):语音识别系统的性能的度量。它是实现对除以引用长度的假设进行引用所需的操作(插入、删除和替换)的最少数量。
[0024]图2是可实现本文描述的系统和/或方法的示例环境200的图。如图2所示,环境200可包括用户设备210、平台220和网络230。环境200的设备可经由有线连接、无线连接或者有线连接和无线连接的组合来互连。
[0025]用户设备210包括能够接收、生成、存储、处理和/或提供与平台220相关联的信息的一个或多个设备。例如,用户设备210可包括计算设备(例如台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如智能电话、无线电电话等)、可穿戴设备(例如,一对智能眼镜或智能手表)或类似设备。在一些实现方式中,用户设备210可从平台220接收信息和/或向平台220发送信息。
[0026]平台220包括能够选择用于执行自动语音识别的最优LMW的一个或多个设备,如本文别处所述。在一些实现方式中,平台220可包括云服务器或一组云服务器。在一些实现方式中,平台220可被设计成模块化平台,使得某些软件组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种选择用于执行自动语音识别的最优语言模型权重(LMW)的方法,所述方法包括:使用语言模型将测试音频解码成词格;使用多个LMW中的第一LMW来分析所述词格,以确定第一多个最佳路径;使用所述多个LMW中的第二LMW分析所述词格,以确定第二多个最佳路径;基于所述第一多个最佳路径与所述第二多个最佳路径之间的最佳路径变化的数量,确定对应于所述第一LMW的第一最佳路径变化率BCPR;以及基于所述第一BCPR为对应于所述多个LMW的多个BCPR中的最小BCPR,来确定所述第一LMW为所述最优LMW。2.根据权利要求1所述的方法,其中,所述多个LMW包括用于将所述语言模型与声学模型相组合的多个缩放因子。3.根据权利要求1所述的方法,其中,所述多个LMW中的每个LMW与所述多个LMW中的相邻LMW以固定步长分隔开。4.根据权利要求1所述的方法,其中,对应于所述第一多个最佳路径的多个得分中的每个得分包括由所述第一LMW平衡的声学得分和语言模型得分的组合,并且其中,所述第一多个最佳路径中的每个最佳路径包括所述词格中具有最大得分的路径。5.根据权利要求1所述的方法,其中,所述最佳路径变化的数量表示为如下:其中c(w)表示所述最佳路径变化的数量,s是话语的索引,S表示对应于所述测试音频的数据集中的话语,δ()表示克罗内克δ函数,p
s
()表示最佳路径,w表示所述第一LMW,ε表示固定步长,以及w+ε表示所述第二LMW。6.根据权利要求5所述的方法,其中,所述第一BCPR表示为如下:其中r(w)表示所述第一BCPR,N表示所述数据集中的话语总数。7.根据权利要求6所述的方法,其中,对应于所述BCPR的连续函数表示为如下:R(w
c
)=I
r
(w
c
)+D
r
(w
c
),其中R(w
c
)表示对应于所述BCPR的所述连续函数,其中I
r
(w
c
)表示在LMW变化之后增加字错误率的最佳路径的归一化数量,以及D
r
(w
c
)表示在所述LMW变化之后减少所述字错误率的最佳路径的归一化数量。8.根据权利要求7所述的方法,其中,I
r
(w
c
)和D
r
(w
c
)表示为如下:以及其中w
opt
表示所述最优LMW,k表示(k≥0)斜率,b
I
表示I
r
(w
c
)的截距,以及b
D
表示D
r
(w
c
)的截距。9.根据权利要求8所述的方法,其中,R(w
c
)表示为如下:以及其
中,R'(w
opt
)如下表示:10.根据权利要求9所述的方法,其中,基于在所述多个BCPR中所述第一BCPR最接近R'(w
opt
)的最小值,确定所述第一LMW为所述最优LMW。11.一种选择用于执行自动语音识别的最优语言模型权重(LMW)的设备,所述设备包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取所述程序代码并根据所述程序代码的指令来操作,所述程序代码包括:解码代码,配置成使得所述至少一个处理器使用语言模型将测试音频解码成词格,第一分析代码,配置成使得所述至少一个处理器使用多个LMW中的第一LMW来分析所述词格,以确...

【专利技术属性】
技术研发人员:王培栋崔佳翁超俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1