识别语音的方法和装置制造方法及图纸

技术编号:26175212 阅读:24 留言:0更新日期:2020-10-31 14:07
本发明专利技术公开了识别语音的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:分别设置汉字系数和拼音系数的初始值,根据汉字系数的初始值生成汉字映射函数,根据拼音系数的初始值生成拼音映射函数;用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数,将训练结果作为联合损失函数的参数进行计算,根据计算结果生成目标映射函数;根据所述目标映射函数对待识别语音进行识别,得到所述待识别语音的汉字识别结果和拼音识别结果。该实施方式保证识别准确性的同时降低识别成本。

【技术实现步骤摘要】
识别语音的方法和装置
本专利技术涉及计算机
,尤其涉及一种识别语音的方法和装置。
技术介绍
目前,采用现有的汉字识别方法对语音进行识别,只能识别出汉字识别结果,采用现有的拼音识别方法对语音进行识别,只能识别出拼音识别结果。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:对包含同音字、多音字或者发音模糊的语音进行识别,若只识别出汉字识别结果或者只识别出拼音识别结果,则识别准确性不高。为保证对包含同音字、多音字或者发音模糊的语音的识别准确性,本领域技术人员容易想到采用汉字识别方法和拼音识别方法分别对语音进行识别,从而得到汉字识别结果和拼音识别结果。而采用两种识别方法分别对语音进行识别,将会造成高昂的识别成本。
技术实现思路
有鉴于此,本专利技术实施例提供一种识别语音的方法和装置,能够保证对包含同音字、多音字或者发音模糊的语音的识别准确性,同时降低识别成本。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种识别语音的方法。本专利技术实施例的识别语音的方法,包括:分别设置汉字系数和拼音系数的初始值,根据汉字系数的初始值生成汉字映射函数,根据拼音系数的初始值生成拼音映射函数;用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数,将训练结果作为联合损失函数的参数进行计算,根据计算结果生成目标映射函数;根据所述目标映射函数对待识别语音进行识别,得到所述待识别语音的汉字识别结果和拼音识别结果。在一个实施例中,用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数,将训练结果作为联合损失函数的参数进行计算,根据计算结果生成目标映射函数,包括:根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值;将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算,得到各个训练样本的联合损失值;根据各个训练样本的所述联合损失值采用反向传播算法进行计算,得到汉字系数和拼音系数的目标值,根据所述目标值生成目标映射函数。在一个实施例中,所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音;根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值,包括:针对预设的各个训练样本,将该训练样本中的频谱分别作为所述汉字映射函数和所述拼音映射函数的参数进行计算,得到该训练样本的汉字识别结果和拼音识别结果;将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值;将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。在一个实施例中,将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算,得到各个训练样本的联合损失值,包括:针对各个训练样本,将预设的汉字权重与该训练样本的所述汉字损失值的乘积作为第一数值;将预设的拼音权重与该训练样本的所述拼音损失值的乘积作为第二数值;其中,所述汉字权重与所述拼音权重的和为1;将所述汉字系数的初始值的二范数与所述拼音系数的初始值的二范数的和作为第三数值,将所述第三数值与预设的正则项系数的乘积作为第四数值;将所述第一数值、所述第二数值与所述第四数值的和作为该训练样本的联合损失值。在一个实施例中,根据所述目标映射函数对待识别语音进行识别,得到所述待识别语音的汉字识别结果和拼音识别结果,包括:对待识别语音的时域进行短时傅里叶变换,得到所述待识别语音的频谱;将所述待识别语音的频谱作为所述目标映射函数的参数进行计算,得到所述待识别语音的汉字识别结果和拼音识别结果。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种识别语音的装置。本专利技术实施例的识别语音的装置,包括:生成单元,用于分别设置汉字系数和拼音系数的初始值,根据汉字系数的初始值生成汉字映射函数,根据拼音系数的初始值生成拼音映射函数;处理单元,用于用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数,将训练结果作为联合损失函数的参数进行计算,根据计算结果生成目标映射函数;识别单元,用于根据所述目标映射函数对待识别语音进行识别,得到所述待识别语音的汉字识别结果和拼音识别结果。在一个实施例中,所述处理单元用于:根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值;将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算,得到各个训练样本的联合损失值;根据各个训练样本的所述联合损失值采用反向传播算法进行计算,得到汉字系数和拼音系数的目标值,根据所述目标值生成目标映射函数。在一个实施例中,所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音;所述处理单元用于:针对预设的各个训练样本,将该训练样本中的频谱分别作为所述汉字映射函数和所述拼音映射函数的参数进行计算,得到该训练样本的汉字识别结果和拼音识别结果;将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值;将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。在一个实施例中,所述处理单元用于:针对各个训练样本,将预设的汉字权重与该训练样本的所述汉字损失值的乘积作为第一数值;将预设的拼音权重与该训练样本的所述拼音损失值的乘积作为第二数值;其中,所述汉字权重与所述拼音权重的和为1;将所述汉字系数的初始值的二范数与所述拼音系数的初始值的二范数的和作为第三数值,将所述第三数值与预设的正则项系数的乘积作为第四数值;将所述第一数值、所述第二数值与所述第四数值的和作为该训练样本的联合损失值。在一个实施例中,所述识别单元用于:对待识别语音的时域进行短时傅里叶变换,得到所述待识别语音的频谱;将所述待识别语音的频谱作为所述目标映射函数的参数进行计算,得到所述待识别语音的汉字识别结果和拼音识别结果。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种电子设备。本专利技术实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例提供的识别语音的方法。为实现上述目的,根据本专利技术实施例的又一个方面,提供了一种计算机可读介质。本专利技术实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例提供的识别语音的方法。上述专利技术中的一个实施例具有如下优点或有益效果:根据设置的汉字系数的初始值生成汉字映射函数,根据设置的拼音系数的初始值生成拼音映射函数,用预设的多个训练样本训练汉字映射函数和拼音映本文档来自技高网...

【技术保护点】
1.一种识别语音的方法,其特征在于,包括:/n分别设置汉字系数和拼音系数的初始值,根据汉字系数的初始值生成汉字映射函数,根据拼音系数的初始值生成拼音映射函数;/n用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数,将训练结果作为联合损失函数的参数进行计算,根据计算结果生成目标映射函数;/n根据所述目标映射函数对待识别语音进行识别,得到所述待识别语音的汉字识别结果和拼音识别结果。/n

【技术特征摘要】
1.一种识别语音的方法,其特征在于,包括:
分别设置汉字系数和拼音系数的初始值,根据汉字系数的初始值生成汉字映射函数,根据拼音系数的初始值生成拼音映射函数;
用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数,将训练结果作为联合损失函数的参数进行计算,根据计算结果生成目标映射函数;
根据所述目标映射函数对待识别语音进行识别,得到所述待识别语音的汉字识别结果和拼音识别结果。


2.根据权利要求1所述的方法,其特征在于,用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数,将训练结果作为联合损失函数的参数进行计算,根据计算结果生成目标映射函数,包括:
根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值;
将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算,得到各个训练样本的联合损失值;
根据各个训练样本的所述联合损失值采用反向传播算法进行计算,得到汉字系数和拼音系数的目标值,根据所述目标值生成目标映射函数。


3.根据权利要求2所述的方法,其特征在于,所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音;
根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值,包括:
针对预设的各个训练样本,将该训练样本中的频谱分别作为所述汉字映射函数和所述拼音映射函数的参数进行计算,得到该训练样本的汉字识别结果和拼音识别结果;
将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值;
将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。


4.根据权利要求2所述的方法,其特征在于,将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算,得到各个训练样本的联合损失值,包括:
针对各个训练样本,将预设的汉字权重与该训练样本的所述汉字损失值的乘积作为第一数值;
将预设的拼音权重与该训练样本的所述拼音损失值的乘积作为第二数值;其中,所述汉字权重与所述拼音权重的和为1;
将所述汉字系数的初始值的二范数与所述拼音系数的初始值的二范数的和作为第三数值,将所述第三数值与预设的正则项系数的乘积作为第四数值;
将所述第一数值、所述第二数值与所述第四数值的和作为该训练样本的联合损失值。


5.根据权利要求1所述的方法,其特征在于,根据所述目标映射函数对待识别语音进行识别,得到所述待识别语音的汉字识别结果和拼音识别结果,包括:
对待识别语音的时域进行短时傅里叶变换,得到所述待识别语音的频谱;
将所述待识别语音的频谱作为所述目标映射函数的参数进行计算,得到所述待识别语音的汉字识别结果和拼音识别结果。


6.一种识别语...

【专利技术属性】
技术研发人员:付立李萧萧
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1