方言语音识别方法技术

技术编号：39399483 阅读：22 留言：0更新日期：2023-11-19 15:53

本发明专利技术涉及语音识别领域，公开了一种方言语音识别方法

全部详细技术资料下载

【技术实现步骤摘要】
方言语音识别方法、装置、设备及存储介质

[0001]本专利技术涉及语音识别
，尤其涉及一种方言语音识别方法
、
装置
、
设备及存储介质
。

技术介绍

[0002]我国幅员辽阔且文化多样，方言的种类众多，且各地方言不仅是与普通话的发音有区别，在用词和语法上也存在一定的差异，大部分方言又缺少对应的相关文字，故在语音识别这一领域，对于方言语音进行识别转写仍存在巨大的挑战
。
[0003]在现有的技术中，对一种口音或方言进行相关训练，需要大量的相关语音和文字语料，其过程往往费时费力；并且由于很多方言表述都没有对应的文本，使得根据方言语音进行识别并输出文本结果时的效果并不理想
。
故急需一种能够对方言语音进行准确识别并得到对应的标准普通话文本的语音识别方法
。

技术实现思路

[0004]本专利技术的主要目的在于解决现有技术中对方言语音进行识别和文本转写时准确性低的技术问题
。
[0005]本专利技术第一方面提供了一种方言语音识别方法，包括：获取文本语料，分别录制所述文本语料对应的标准普通话语音数据和方言语音数据；
[0006]构建初始识别模型，基于所述文本语料
、
所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练，得到方言语音识别模型；
[0007]响应于方言语音识别请求，获取待识别方言语音数据；
[0008]将所述待识别方言语音数据输入训练后的所述方言语...

【技术保护点】

【技术特征摘要】
1.
一种方言语音识别方法，其特征在于，包括：获取文本语料，分别录制所述文本语料对应的标准普通话语音数据和方言语音数据；构建初始识别模型，基于所述文本语料
、
所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练，得到方言语音识别模型；响应于方言语音识别请求，获取待识别方言语音数据；将所述待识别方言语音数据输入训练后的所述方言语音识别模型中进行文本识别，输出所述待识别方言语音对应的标准普通话文本
。2.
根据权利要求1所述的方言语音识别方法，其特征在于，所述初始识别模型包括编码器和解码器，所述基于所述文本语料
、
所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练，得到方言语音识别模型包括：基于所述文本语料和所述文本语料对应的所述标准普通话语音数据对所述编码器进行微调训练，得到微调训练后的编码器；将所述标准普通话语音数据和所述方言语音数据组成语音对，并对所述语音对进行标签标注，其中，将对应于同一文本语料的所述标准普通话语音数据和所述方言语音数据组成的语音对的标签值标注为1，将所述对应于不同文本语料的所述标准普通话语音数据和所述方言语音数据组成的语音对的标签值标注为0；基于标签标注后的所述语音对组成识别训练集；根据所述识别训练集对微调训练后的所述编码器进行优化训练，得到优化训练后的编码器，基于优化训练后的所述编码器和所述解码器生成方言识别模型
。3.
根据权利要求2所述的方言语音识别方法，其特征在于，所述优化训练后的所述编码器包括对标模型编码器和训练模型编码器，所述根据所述识别训练集对微调训练后的所述编码器进行优化训练，得到优化训练后的编码器，基于优化训练后的所述编码器和所述解码器生成方言识别模型包括：分别提取所述语音对中包含的标准普通话语音数据和所述方言语音数据的频谱特征图；将所述标准普通话语音数据的频谱特征图输入所述对标模型编码器中进行数据压缩和编码，得到第一普通话语音池化向量；将所述标准普通话语音数据的频谱特征图和所述方言语音数据的频谱特征图分别输入所述训练模型编码器中进行数据压缩和编码，得到第二普通话语音池化向量和方言语音池化向量；调用损失函数基于所述第一普通话语音池化向量
、
第二普通话语音池化向量和方言语音池化向量所述计算损失值；基于所述损失值，通过反向传播对所述训练模型编码器进行参数调整，得到调整后的训练模型编码块；基于调整后的所述训练模型编码器
、
所述对标模型编码器和所述解码器生成方言语音识别模型
。4.
根据权利要求3所述的方言语音识别方法，其特征在于，所述损失函数为基于
softsign
函数构建的，所述调用损失函数基于所述第一普通话语音池化向量
、
第二普通话语音池化向量和方言语音池化向量所述计算损失值时的计算公式为：
其中，
Lo...

【专利技术属性】
技术研发人员：何熲，胡频，
申请(专利权)人：上海暖禾脑科学技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人