用于无监督语言模型权重选择的最佳路径变化率制造技术

技术编号：31891708 阅读：21 留言：0更新日期：2022-01-15 12:19

一种选择用于执行自动语音识别的最优语言模型权重(LMW)的方法，该方法包括：使用语言模型将测试音频解码成词格；使用多个LMW中的第一LMW来分析词格，以确定第一多个最佳路径；使用多个LMW中的第二LMW来分析词格，以确定第二多个最佳路径；基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量，确定对应于第一LMW的第一最佳路径变化率(BCPR)；以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR来确定第一LMW为最优LMW。中的最小BCPR来确定第一LMW为最优LMW。中的最小BCPR来确定第一LMW为最优LMW。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于无监督语言模型权重选择的最佳路径变化率
[0001]相关申请的交叉引用
[0002]本申请要求于2019年2月19日提交的第16/279,491号美国申请的优先权，该美国申请的公开内容通过引用整体并入本文。

技术介绍

[0003]在现有技术的语音识别系统中，独立地训练声学模型P(A|W)和语言模型P(W)。在解码期间，来自声学模型的似然得分和来自语言模型的概率在不同的标度上，因此它们需要与特定的标度组合：score(W)＝log(P(A|W))+LMW
×
log(P(W))，其中LMW是称为语言模型权重的标度值。
[0004]在许多实词应用中，一个训练过的声学模型可与领域特定的语言模型一起用于不同识别任务。LMW需要针对每个任务进行调节。
[0005]图1示出了现有技术的LMW选择方法100，LMW选择方法100通过针对不同任务的不同开发集合的性能来选择LMW。这通常需要与真实测试数据非常相似的人类转录的开发数据集。然后模型需要用于以不同LM权重进行解码。然后将解码结果与真实参考进行比较以获得字错误率(WER)。最后，选择具有最小WER的LMW作为最优LMW。
[0006]现有技术的这种选择最优LMW的方法需要与测试数据非常相似的开发数据集。可能难以收集这种开发数据，这种开发数据也足够大而不能提供可靠的WER。此外，这种现有技术的方法需要对每个LMW计算WER。

技术实现思路

[0007]在一个实施例中，提供一种用于选择用于执行自动语音识别的最优语言模型权重(LMW...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种选择用于执行自动语音识别的最优语言模型权重(LMW)的方法，所述方法包括：使用语言模型将测试音频解码成词格；使用多个LMW中的第一LMW来分析所述词格，以确定第一多个最佳路径；使用所述多个LMW中的第二LMW分析所述词格，以确定第二多个最佳路径；基于所述第一多个最佳路径与所述第二多个最佳路径之间的最佳路径变化的数量，确定对应于所述第一LMW的第一最佳路径变化率BCPR；以及基于所述第一BCPR为对应于所述多个LMW的多个BCPR中的最小BCPR，来确定所述第一LMW为所述最优LMW。2.根据权利要求1所述的方法，其中，所述多个LMW包括用于将所述语言模型与声学模型相组合的多个缩放因子。3.根据权利要求1所述的方法，其中，所述多个LMW中的每个LMW与所述多个LMW中的相邻LMW以固定步长分隔开。4.根据权利要求1所述的方法，其中，对应于所述第一多个最佳路径的多个得分中的每个得分包括由所述第一LMW平衡的声学得分和语言模型得分的组合，并且其中，所述第一多个最佳路径中的每个最佳路径包括所述词格中具有最大得分的路径。5.根据权利要求1所述的方法，其中，所述最佳路径变化的数量表示为如下：其中c(w)表示所述最佳路径变化的数量，s是话语的索引，S表示对应于所述测试音频的数据集中的话语，δ()表示克罗内克δ函数，p
s
()表示最佳路径，w表示所述第一LMW，ε表示固定步长，以及w+ε表示所述第二LMW。6.根据权利要求5所述的方法，其中，所述第一BCPR表示为如下：其中r(w)表示所述第一BCPR，N表示所述数据集中的话语总数。7.根据权利要求6所述的方法，其中，对应于所述BCPR的连续函数表示为如下：R(w
c
)＝I
r
(w
c
)+D
r
(w
c
)，其中R(w
c
)表示对应于所述BCPR的所述连续函数，其中I
r
(w
c
)表示在LMW变化之后增加字错误率的最佳路径的归一化数量，以及D
r
(w
c
)表示在所述LMW变化之后减少所述字错误率的最佳路径的归一化数量。8.根据权利要求7所述的方法，其中，I
r
(w
c
)和D
r
(w
c
)表示为如下：以及其中w
opt
表示所述最优LMW，k表示(k≥0)斜率，b
I
表示I
r
(w
c
)的截距，以及b
D
表示D
r
(w
c
)的截距。9.根据权利要求8所述的方法，其中，R(w
c
)表示为如下：以及其
中，R'(w
opt
)如下表示：10.根据权利要求9所述的方法，其中，基于在所述多个BCPR中所述第一BCPR最接近R'(w
opt
)的最小值，确定所述第一LMW为所述最优LMW。11.一种选择用于执行自动语音识别的最优语言模型权重(LMW)的设备，所述设备包括：至少一个存储器，配置成存储程序代码；以及至少一个处理器，配置成读取所述程序代码并根据所述程序代码的指令来操作，所述程序代码包括：解码代码，配置成使得所述至少一个处理器使用语言模型将测试音频解码成词格，第一分析代码，配置成使得所述至少一个处理器使用多个LMW中的第一LMW来分析所述词格，以确...

【专利技术属性】
技术研发人员：王培栋，崔佳，翁超，俞栋，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人