一种基于元音和谐的土耳其语的语音识别方法及系统技术方案

技术编号:29025395 阅读:19 留言:0更新日期:2021-06-26 05:26
本发明专利技术属于语音识别和自然语言处理技术领域,具体涉及一种基于元音和谐的土耳其语的语音识别方法,该方法包括:将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。的候选语句作为语音识别结果。的候选语句作为语音识别结果。

【技术实现步骤摘要】
一种基于元音和谐的土耳其语的语音识别方法及系统


[0001]本专利技术属于语音识别和自然语言处理
,具体涉及一种基于元音和谐的土耳其语的语音识别方法及系统。

技术介绍

[0002]语言模型(Language model,LM)是描述词序列概率分布的数学模型,其在自然语言处理相关的应用中发挥着重要的作用。随着深度学习技术的发展,基于深度神经网络(Deep neural network,DNN)的语言模型建模技术在语音识别、机器翻译、文本生成等一系列任务中展现出巨大的潜力。
[0003]Benjio等人首先将DNN用于语言模型建模任务中。随后Mikolov等人将递归神经网络(Recurrent neural network,RNN)用于语言模型建模。相比于DNN模型,RNN模型中的递归结构可以有效地对历史信息进行压缩,从而有利于模型学习长时历史信息。
[0004]土耳其语是一种典型的黏着语,其特征是在词根的前后粘贴不同的词缀来体现不同的语法功能。一般来说,同一个词根在不同的需求下,可以灵活的产生相当数量的单词。因此,相同规模语料下,通常这类语言统计得到的词表会非常庞大;并且,这类语言的词表通常会随语料增大持续增加。因此,通常需要使用子词作为建模单元。
[0005]元音和谐是土耳其语以及其他所有突厥语都遵循的语音规则。土耳其语的元音和谐包括前后元音和谐以及圆唇非圆唇元音和谐。元音分类及元音和谐规则如表1所示:
[0006]表1土耳其语元音和谐示意表
[0007][0008][0009]所谓和谐就是指一个词内或者与词相关的词缀内含有同一类型的元音。具体来说,前后元音和谐(大和谐)指前元音后跟前元音,后元音后跟后元音。圆唇元音、非圆唇元音和谐(小和谐)指非圆唇元音后跟非圆唇元音,圆唇元音后跟窄的圆唇元音或宽的非圆唇元音。
[0010]因此,现有的针对土耳其语的语言方法中,存在当前子词的字母出现的情况会在很大程度上影响下一个词缀的选择的问题。以增加一个表示字母出现情况的特征,用来帮助语言模型预测下一个子词。

技术实现思路

[0011]本专利技术的目的在于,为解决现有的识别方法存在上述缺陷,本专利技术提出了一种基于元音和谐的土耳其语的语音识别方法,该方法包括:
[0012]将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;
[0013]将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;
[0014]根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;
[0015]按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
[0016]作为上述技术方案的改进之一,所述土耳其语子词级别神经网络语言模型的处理过程,具体包括:
[0017]将当前子词对应的独热码输入至词向量矩阵,输出当前子词的低维词向量;
[0018]截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征;
[0019]将当前子词的低维词向量与当前子词的辅助特征串联,并将其输入至长短时记忆神经网络单元的隐层,输出当前子词的隐层特征向量;
[0020]将当前子词的隐层特征向量与当前子词的辅助特征串联,获得串联后的特征向量,并将其输入至长短时记忆神经网络单元的softmax层,依据softmax函数:
[0021]y
t
=softmax(W
e
[h
t
;f
t
]+b
e
)
[0022]其中,y
t
为下一个子词的预测概率向量;W
e
为仿射矩阵,b
e
为偏置;h
t
为当前子词的隐层特征向量;f
t
为当前子词的辅助特征;其中,辅助特征f
t
表示为到当前子词为止的最后一个元音和辅音,其包含最后一个元音和辅音的独热码;具体来说,土耳其语字母表中包含8个元音21个辅音;因此,最后一个元音和辅音的独热码两部分的维度分别为8和21;最终的辅助特征为最后一个元音和辅音的独热码两部分的串联,即特征长度d=29;
[0023]输出下一个子词的预测概率向量y
t

[0024]作为上述技术方案的改进之一,所述方法还包括:土耳其语子词级别神经网络语言模型的训练步骤,具体包括:
[0025]建立训练集,将训练集中的每个单词拆分成多个子词;
[0026]对于当前子词w
t
,其输入为该当前子词的独热码;其中,V表示词汇表的大小;
[0027]当前子词w
t
经过在词向量矩阵C的查表操作后,得到该当前子词w
t
的低维词向量e
t
;其中,C∈R
V
×
m
,e
t
∈R
m
中,V为词汇表的大小;m为子词级别神经网络语言模型的LSTM单元的隐层单元个数;
[0028]截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征f
t

[0029]将通过词向量矩阵C得到的低维词向量e
t
与辅助特征f
t
串联,送入长短时记忆神经网络单元中,得到的输出为当前子词的隐层特征向量h
t
;其中,h
t
∈R
m

[0030]将当前子词的隐层特征向量h
t
通过一层只有一个节点线性层和sigmoid层得到结果z
t
;其中,该结果z
t
为该子词级别神经网络语言模型的词边界预测分支的结果;
[0031]词边界预测标签g
t
∈{0,1}为下一子词是否为单词第一个子词;其中,1表示下一次是单词第一次,0表示不是;t时刻对应的损失函数L1为:
[0032]L1=-g
t
log(z
t
)-(1-g
t
)log(1-z
t
)
[0033]其中,z
t
为该长短时记忆神经网络单元的词边界预测分支的结果;g
t
为词边界预测标签;
[0034]将当前子词的隐层特征向量h
t
与辅助特征f
t
串联,通过一层节点个数为子词词表大小的线性层和softmax层,得到下一个子词的预测概率;对应的损失函数L2:
[0035][0036]其中,V为词汇表的大小;w
(t+1)v
为序列第(t+1)子词是否为词表中第vg个单词,是为1,否为0;;(y
tv
)为输出yt向量中第v个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元音和谐的土耳其语的语音识别方法,该方法包括:将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述土耳其语子词级别神经网络语言模型的处理过程,具体包括:将当前子词对应的独热码输入至词向量矩阵,输出当前子词的低维词向量;截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征;将当前子词的低维词向量与当前子词的辅助特征串联,并将其输入至长短时记忆神经网络单元的隐层,输出当前子词的隐层特征向量;将当前子词的隐层特征向量与当前子词的辅助特征串联,获得串联后的特征向量,并将其输入至长短时记忆神经网络单元的softmax层,依据softmax函数:y
t
=softmax(W
e
[h
t
;f
t
]+b
e
)其中,y
t
为下一个子词的预测概率向量;W
e
为仿射矩阵,b
e
为偏置;h
t
为当前子词的隐层特征向量;f
t
为当前子词的辅助特征;其中,辅助特征f
t
表示为到当前子词为止的最后一个元音和辅音,其包含最后一个元音和辅音的独热码;具体来说,土耳其语字母表中包含8个元音21个辅音;因此,最后一个元音和辅音的独热码两部分的维度分别为8和21;最终的辅助特征为最后一个元音和辅音的独热码两部分的串联,即特征长度d=29;输出下一个子词的预测概率向量y
t
。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:土耳其语子词级别神经网络语言模型的训练步骤,具体包括:建立训练集,将训练集中的每个单词拆分成多个子词;对于当前子词w
t
,其输入为该当前子词的独热码;其中,V表示词汇表的大小;当前子词w
t
经过在词向量矩阵C的查表操作后,得到该当前子词w
t
的低维词向量e
t
;其中,C∈R
V
×
m
,e
t
∈R
m
中,V为词汇表的大小;m为子词级别神经网络语言模型的LSTM单元的隐层单元个数;截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征f
t
;将通过词向量矩阵C得到的低维词向量e
t
与辅助特征f
t
串联,送入长短时...

【专利技术属性】
技术研发人员:张鹏远刘畅颜永红
申请(专利权)人:北京中科信利技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1