语音处理方法、装置、设备及存储介质制造方法及图纸

技术编号:28298126 阅读:24 留言:0更新日期:2021-04-30 16:24
本申请实施例公开了一种语音处理方法、装置、设备及存储介质,通过对用于解码文本单元的权重序列进行改进,使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系,由于每一文本单元对应的目标函数关系表示,该文本单元与各个语音帧的时间信息的关联度,与各个语音帧的时间信息间的关联关系,这就使得,利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的,因此,利用各个语音帧的时间信息,以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系,也就是将语音帧的时间信息与文本单元准确对齐,从而提高了将语音识别结果与音频对齐的准确率。

【技术实现步骤摘要】
语音处理方法、装置、设备及存储介质
本申请涉及语音处理
,更具体地说,涉及一种语音处理方法、装置、设备及存储介质。
技术介绍
在语音识别任务中,端到端建模方法具有声学和语言联合建模的优点,理论上的潜力很大。但端到端语音识别任务摒弃了传统语音识别的时序解码方式,采用自回归递推方式解码,使得最终只能获取到对音频进行语音识别的语音识别结果,而无法将语音识别结果与音频对齐,即无法获取语音识别结果中的各个字或词在音频中的位置。为了使得端到端语音识别任务也能够将语音识别结果与音频对齐,有方案提出基于端到端语音识别任务中的各个语音帧对文字结果中的字或词的注意力权重来将语音识别结果与语音信号的时间边界信息对齐,但基于目前的方法得到对齐结果的错误率较高。因此,如何提高将语音识别结果与音频对齐的准确率成为亟待解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种语音处理方法、装置、设备及存储介质,以提高将语音识别结果与音频对齐的准确率。为了实现上述目的,现提出的方案如下:一种语音处理方法,包括:本文档来自技高网...

【技术保护点】
1.一种语音处理方法,其特征在于,包括:/n对待识别的语音数据的各个语音帧进行编码,得到各个语音帧的编码结果;/n利用所述各个语音帧的编码结果,获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列;每一个文本单元对应的权重序列表示该文本单元与每一语音帧的关联度;每一个文本单元对应的目标函数关系用于表示:该文本单元与各个语音帧的时间信息的关联度,与各个语音帧的时间信息间的关联关系;每一个文本单元对应的权重序列与所述各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系;/n在基于各个文本单元对应的权重序列解码得到所有的文本单元后,利用所述各个语音帧的时间信息...

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:
对待识别的语音数据的各个语音帧进行编码,得到各个语音帧的编码结果;
利用所述各个语音帧的编码结果,获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列;每一个文本单元对应的权重序列表示该文本单元与每一语音帧的关联度;每一个文本单元对应的目标函数关系用于表示:该文本单元与各个语音帧的时间信息的关联度,与各个语音帧的时间信息间的关联关系;每一个文本单元对应的权重序列与所述各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系;
在基于各个文本单元对应的权重序列解码得到所有的文本单元后,利用所述各个语音帧的时间信息,以及各个文本单元对应的目标函数关系,确定各语音帧的时间信息与文本单元的对应关系。


2.根据权利要求1所述的方法,其特征在于,所述利用各个语音帧的时间信息,以及各个文本单元对应的目标函数关系,确定各个语音帧的时间信息与文本单元的对应关系,包括:
对于每一个语音帧,将该语音帧的时间信息输入各个目标函数关系,得到各个目标函数关系输出的关联度,每一个目标函数关系输出的关联度为该语音帧的时间信息与该目标函数对应的文本单元的关联度;
基于各个语音帧的时间信息与每一个文本单元的关联度,确定语音帧的时间信息与文本单元的对应关系。


3.根据权利要求2所述的方法,其特征在于,所述基于各个语音帧的时间信息与每一个文本单元的关联度,确定语音帧的时间信息与文本单元的对应关系,包括:
根据各个语音帧的时间信息与每一个文本单元的关联度构建概率图模型;所述概率图模型中每个状态节点对应一个语音帧和一个文本单元,每个状态节点的发射概率为该状态节点对应的语音帧的时间信息和文本单元的关联度;不同状态节点对应不同语音帧的时间信息和/或不同文本单元;
利用所述概率图模型确定语音帧的时间信息与文本单元的对应关系。


4.根据权利要求3所述的方法,其特征在于,所述概率图模型为隐马尔科夫模型或条件随机场模型。


5.根据权利要求1所述的方法,其特征在于,所述利用所述各个语音帧的编码结果,获取与待解码的每一个文本单元对应的目标函数关系,包括:
利用所述各个语音帧的编码结果,获取与每一个文本单元对应的目标参数值;其中,目标参数与目标函数模型中的待定参数相关;
对于每一个文本单元,基于该文本单元对应的目标参数值确定所述目标函数模型中的待定参数的值,得到该文本单元对应的目标函数关系。


6.根据权利要求5所述的方法,其特征在于,所述目标函数模型,包括:高斯分布函数模型。


7.根据权利要求5所述的方法,其特征在于,所述目标参数值包括:
高斯分布的中心位置处的数值γ,相邻两个文本单元对应的高斯分布的中心位置之差Δμ,高斯分布的尖锐程度σ;或者,所述目标参数包括:相邻两个文本单元对应的高斯分布的中心位置之差Δμ,高斯分布的尖锐程度σ。


8.根据权利要求7所述的方法,其特征在于,还包括:
在获取到相邻两个文本单元对应的高斯分布的中心位置之差Δμ时,若所述相邻两个文本单元对应的高斯分布的中心位置之差Δμ小于或等于0,将所述相邻两个高斯分布的中心位置之差Δμ赋值为第一预设值,所述第一预设值大于0;
和/或,
在获取到高斯分布的尖锐程度σ时,若所述高斯分布的尖锐程度σ不在预置范围内,将所述高斯分布的尖锐程度σ赋值为第二预设...

【专利技术属性】
技术研发人员:吴明辉方昕刘俊华
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1