语音识别方法技术

技术编号:37070353 阅读:16 留言:0更新日期:2023-03-29 19:47
本申请提供一种语音识别方法,包括:确定不同训练集与最新的用户语音数据集之间的相关度;根据相关度最高的T个训练集训练出的第一语言模型,得到目标语言模型;所述T为大于等于1的正整数;根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。本申请得到的目标语言模型与最新输入的用户语音数据集之间高度相关,使得目标语言模型与用户实际所在的场景具有较高的匹配度,进而使用目标语言模型对最新输入的用户语音数据进行识别,就可以使得最终得到的识别结果更为准确。确。确。

【技术实现步骤摘要】
语音识别方法


[0001]本申请涉及语音识别
,具体而言,涉及一种语音识别方法。

技术介绍

[0002]目前,在进行语音识别时,是将语音数据输入至语音识别系统中,语音识别系统内会采用诸如光束搜索策略等方法,先推算出若干个词网格,然后采用一个语言模型对词网格打分并将分数合并于词网格中,从而最终得到语音识别结果。
[0003]在现有技术中,对词网格打分的语言模型往往是采用一个固定的N元语言模型来实现,但是由于这个模型是固定的,因此可能存在与用户实际所在的场景匹配度不高的问题,从而影响最终的语音识别结果的准确性。

技术实现思路

[0004]本申请实施例的目的在于提供一种语音识别方法,用以解决相关技术存在着的,对词网格打分的语言模型与用户实际所在的场景匹配度不高,影响最终的语音识别结果的准确性的问题。
[0005]本申请实施例提供了一种语音识别方法,包括:确定不同训练集与最新的用户语音数据集之间的相关度;根据相关度最高的T个训练集训练出的第一语言模型,得到目标语言模型;所述T为大于等于1的正整数;根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。
[0006]在上述实现过程中,通过确定不同训练集与最新的用户语音数据集之间的相关度,从而选取相关度最高的T个训练集训练出的第一语言模型来得到目标语言模型,这就使得得到的目标语言模型与最新输入的用户语音数据集之间高度相关,使得目标语言模型与用户实际所在的场景具有较高的匹配度,进而使用目标语言模型对最新输入的用户语音数据进行识别,就可以使得最终得到的识别结果更为准确。
[0007]进一步地,确定不同训练集与最新的用户语音数据集之间的相关度,包括:获取所述最新的用户语音数据集训练出的第二语言模型,以及所述不同训练集训练出的多个第三语言模型;所述第二语言模型与所述第三语言模型为相同类型的语言模型;根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与所述最新的用户语音数据集之间的相关度。
[0008]在上述实现过程中,通过由最新的用户语音数据集训练出第二语言模型,并由各训练集训练出与第二语言模型相同类型的第三语言模型,这就使得第二语言模型和各第三语言模型之间具有可比性,且可以第二语言模型和各第三语言模型之间的相关性可以反映出不同训练集与所述最新的用户语音数据集之间,在语言模型上的相关性,从而根据第二语言模型和第三语言模型,可以准确的确定出不同训练集与最新的用户语音数据集之间的相关度,保证方案的正确实施。
[0009]进一步地,根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与
所述最新的用户语音数据集之间的相关度,包括:对所述第二语言模型进行查询扩展,得到扩展第二语言模型;确定所述扩展第二语言模型分别与所述不同训练集的所述第三语言模型之间的相关度;所述扩展第二语言模型与各所述第三语言模型之间的相关度为所述最新的用户语音数据集与各所述第三语言模型对应的训练集之间的相关度。
[0010]在上述实现过程中,通过对第二语言模型进行查询扩展,可以扩展第二语言模型所包含词语的广度,并提升最新的用户语音数据集中词语的概率,使得得到的相关度更能表征不同训练集与最新的用户语音数据集之间的相关性。
[0011]进一步地,对所述第二语言模型进行查询扩展,得到扩展第二语言模型,包括:根据背景模型θ
bg
和倒时序模型θ
tr
,确定出初始的扩展第二语言模型θ
sg
;其中:所述θ
bg
为根据所述不同训练集训练得到的概率模型,所述θ
bg
中各词语的概率值与各所述词语的重要性相关;所述θ
tr
为根据所述最新的用户语音数据集训练得到的概率模型,所述θ
tr
中各词语的概率值与各所述词语的先后顺序相关;根据所述θ
bg
、所述θ
tr
和所述θ
sg
确定预设的核函数的值;在确定预设的结束条件满足时,得到最终的所述扩展第二语言模型θ
sg

[0012]在上述实现过程中,通过背景模型θ
bg
体现词语的重要性,并通过倒时序模型θ
tr
体现最新的用户语音数据集中各词语出现时序,从而可以使得得到的扩展第二语言模型θ
sg
中,越重要的词语概率值越大,在最新的用户语音数据集中越晚出现的词语概率值越大,使得扩展第二语言模型θ
sg
可以更好地反映出用户实际所处的场景,使得得到的相关度更能表征不同训练集与用户实际所处场景的匹配度。
[0013]进一步地,根据所述θ
bg
和所述θ
tr
确定出所述θ
sg
的过程包括:按照下述公式确定出所述θ
sg

[0014][0015][0016][0017][0018]其中:P(w|θ
bg
)表征θ
bg
中的第w个词语的概率值,C
train
(w)表征θ
bg
中的第w个词语在所述不同训练集中出现的总次数,V表征θ
bg
中的词语总数,G
train
(w

)表征θ
bg
中的第w

个词语在所述不同训练集中出现的总次数;P(w|θ
tr
)表征θ
tr
中的第w个词语的概率值,表征θ
tr
中的第w个词语在所述最新的用户语音数据集中出现的总次数,u
x
表征θ
tr
中的词语总数,表征θ
tr
中的第w

个词语在所述最新的用户语音数据集中出现的总次数,L表征所述最新的用户语音数据集中的词语总数;P(w|θ
sg
)表征θ
sg
中的第w个词语的概率值,E(w)表征P(w|θ
sg
)的期望估计,E(w

)表征P(w


sg
)的期望估计,P(w


sg
)表征θ
sg
中的第w

个词语的概率值,M(w)表征P(w|θ
sg
)的极大似然估计,C
q
(w)表征θ
sg
中的第w个词语在所述最新的用户语音数据集中出现的总次数,C
q
(w

)表征θ
sg
中的第w

个词语在所述最新的用户语音数
据集中出现的总次数,λ
m
为θ
m
的权重值。
[0019]通过上述算法,背景模型θ
bg
中越重要的词语概率值越小,倒时序模型θ
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:确定不同训练集与最新的用户语音数据集之间的相关度;根据相关度最高的T个训练集训练出的第一语言模型,得到目标语言模型;所述T为大于等于1的正整数;根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。2.如权利要求1所述的语音识别方法,其特征在于,确定不同训练集与最新的用户语音数据集之间的相关度,包括:获取所述最新的用户语音数据集训练出的第二语言模型,以及所述不同训练集训练出的多个第三语言模型;所述第二语言模型与所述第三语言模型为相同类型的语言模型;根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与所述最新的用户语音数据集之间的相关度。3.如权利要求2所述的语音识别方法,其特征在于,根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与所述最新的用户语音数据集之间的相关度,包括:对所述第二语言模型进行查询扩展,得到扩展第二语言模型;确定所述扩展第二语言模型分别与所述不同训练集的所述第三语言模型之间的相关度;所述扩展第二语言模型与各所述第三语言模型之间的相关度为所述最新的用户语音数据集与各所述第三语言模型对应的训练集之间的相关度。4.如权利要求3所述的语音识别方法,其特征在于,对所述第二语言模型进行查询扩展,得到扩展第二语言模型,包括:根据背景模型θ
bg
和倒时序模型θ
tr
,确定出初始的扩展第二语言模型θ
sg
;其中:所述θ
bg
为根据所述不同训练集训练得到的概率模型,所述θ
bg
中各词语的概率值与各所述词语的重要性相关;所述θ
tr
为根据所述最新的用户语音数据集训练得到的概率模型,所述θ
tr
中各词语的概率值与各所述词语的先后顺序相关;根据所述θ
bg
、所述θ
tr
和所述θ
sg
确定预设的核函数的值;在确定预设的结束条件满足时,得到最终的所述扩展第二语言模型θ
sg
。5.如权利要求4所述的语音识别方法,其特征在于,根据所述θ
bg
和所述θ
tr
确定出所述θ
sg
的过程包括:按照下述公式确定出所述θ
sg
::::其中:P(w|θ
bg
)表征θ
bg
中的第w个词语的概率值,C
train
(w)表征θ
bg
中的第w个词语在所述不同
训练集中出现的总次数,V表征θ
bg
中的词语总数,C
train
(w

【专利技术属性】
技术研发人员:简仁贤许曜麒林长洲
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1