方言语音识别方法技术

技术编号:39399483 阅读:22 留言:0更新日期:2023-11-19 15:53
本发明专利技术涉及语音识别领域,公开了一种方言语音识别方法

【技术实现步骤摘要】
方言语音识别方法、装置、设备及存储介质


[0001]本专利技术涉及语音识别
,尤其涉及一种方言语音识别方法

装置

设备及存储介质


技术介绍

[0002]我国幅员辽阔且文化多样,方言的种类众多,且各地方言不仅是与普通话的发音有区别,在用词和语法上也存在一定的差异,大部分方言又缺少对应的相关文字,故在语音识别这一领域,对于方言语音进行识别转写仍存在巨大的挑战

[0003]在现有的技术中,对一种口音或方言进行相关训练,需要大量的相关语音和文字语料,其过程往往费时费力;并且由于很多方言表述都没有对应的文本,使得根据方言语音进行识别并输出文本结果时的效果并不理想

故急需一种能够对方言语音进行准确识别并得到对应的标准普通话文本的语音识别方法


技术实现思路

[0004]本专利技术的主要目的在于解决现有技术中对方言语音进行识别和文本转写时准确性低的技术问题

[0005]本专利技术第一方面提供了一种方言语音识别方法,包括:获取文本语料,分别录制所述文本语料对应的标准普通话语音数据和方言语音数据;
[0006]构建初始识别模型,基于所述文本语料

所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练,得到方言语音识别模型;
[0007]响应于方言语音识别请求,获取待识别方言语音数据;
[0008]将所述待识别方言语音数据输入训练后的所述方言语音识别模型中进行文本识别,输出所述待识别方言语音对应的标准普通话文本

[0009]可选地,在本专利技术第一方面的第一种实现方式中,所述初始识别模型包括编码器和解码器,所述基于所述文本语料

所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练,得到方言语音识别模型包括:
[0010]基于所述文本语料和所述文本语料对应的所述标准普通话语音数据对所述编码器进行微调训练,得到微调训练后的编码器;
[0011]将所述标准普通话语音数据和所述方言语音数据组成语音对,并对所述语音对进行标签标注,其中,将对应于同一文本语料的所述标准普通话语音数据和所述方言语音数据组成的语音对的标签值标注为1,将所述对应于不同文本语料的所述标准普通话语音数据和所述方言语音数据组成的语音对的标签值标注为0;
[0012]基于标签标注后的所述语音对组成识别训练集;
[0013]根据所述识别训练集对微调训练后的所述编码器进行优化训练,得到优化训练后的编码器,基于优化训练后的所述编码器和所述解码器生成方言识别模型

[0014]可选地,在本专利技术第一方面的第二种实现方式中,所述优化训练后所述编码器包
括对标模型编码器和训练模型编码器,所述根据所述识别训练集对微调训练后的所述编码器进行优化训练,得到优化训练后的编码器,基于优化训练后的所述编码器和所述解码器生成方言识别模型包括:
[0015]分别提取所述语音对中包含的标准普通话语音数据和所述方言语音数据的频谱特征图;
[0016]将所述标准普通话语音数据的频谱特征图输入所述对标模型编码器中进行数据压缩和编码,得到第一普通话语音池化向量;
[0017]将所述标准普通话语音数据的频谱特征图和所述方言语音数据的频谱特征图分别输入所述训练模型编码器中进行数据压缩和编码,得到第二普通话语音池化向量和方言语音池化向量;
[0018]调用损失函数基于所述第一普通话语音池化向量

第二普通话语音池化向量和方言语音池化向量所述计算损失值;
[0019]基于所述损失值,通过反向传播对所述训练模型编码器进行参数调整,得到调整后的训练模型编码块;
[0020]基于调整后的所述训练模型编码器

所述对标模型编码器和所述解码器生成方言语音识别模型

[0021]可选地,在本专利技术第一方面的第三种实现方式中,所述损失函数为基于
softsign
函数构建的,所述调用损失函数基于所述第一普通话语音池化向量

第二普通话语音池化向量和方言语音池化向量所述计算损失值时的计算公式为:
[0022][0023]其中,
Loss
表示损失值,
N
为向量维度,
S
i
为第一普通话语音池化向量,为第二普通话语音池化向量,
F
i
为方言语音池化向量,
ε
为常数

[0024]可选地,在本专利技术第一方面的第四种实现方式中,所述分别提取所述语音对中包含的标准普通话语音数据和所述方言语音数据的频谱特征图包括:
[0025]对所述标准普通话语音数据和所述方言语音数据进行切割得到音频片段;
[0026]对各所述音频片段进行短时傅里叶变换,得到各所述音频片段的语音频谱;
[0027]通过对数变换对各所述语音频谱的高频部分进行压缩,并通过梅尔映射法突出各所述语音频谱的低频内容,分别得到所述标准普通话语音数据对应的频谱特征图和所述方言语音数据对应的频谱特征图

[0028]可选地,在本专利技术第一方面的第五种实现方式中,所述将所述待识别方言语音数据输入训练后的所述方言语音识别模型中进行文本识别,输出所述待识别方言语音对应的标准普通话文本包括:
[0029]基于所述待识别方言语音数据生成待识别语音频谱图;
[0030]将所述待识别语音频谱图输入训练后的所述方言语音识别模型中进行特征识别,得到待识别方言语音特征;
[0031]获取所述待识别方言语音特征对应的候选标准普通话特征;
[0032]根据所述候选标准普通话特征生成对应的标准普通话文本

[0033]可选地,在本专利技术第一方面的第六种实现方式中,所述文本语料的内容为疾病筛查相关的内容,所述获取文本语料包括:
[0034]获取疾病筛查相关的第一文本内容,将所述第一文本内容以句为单位进行结构拆分,得到根据第二文本内容;
[0035]根据所述目标方言对应的地区的语言表述习惯将所述第二文本内容进行表达方式转换,得到以句为单位的文本语料

[0036]本专利技术第二方面提供了一种方言语音识别装置,包括:
[0037]训练模块,用于获取文本语料,分别录制所述文本语料对应的标准普通话语音数据和方言语音数据,构建初始识别模型,基于所述文本语料

所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练,得到方言语音识别模型;
[0038]获取模块,用于响应于方言语音识别请求,获取待识别方言语音数据;
[0039]识别模块,用于将所述待识别方言语音数据输入训练后的所述方言语音识别模型中进行文本识别,输出所述待识别方言语音对应的标准普通话文本
。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种方言语音识别方法,其特征在于,包括:获取文本语料,分别录制所述文本语料对应的标准普通话语音数据和方言语音数据;构建初始识别模型,基于所述文本语料

所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练,得到方言语音识别模型;响应于方言语音识别请求,获取待识别方言语音数据;将所述待识别方言语音数据输入训练后的所述方言语音识别模型中进行文本识别,输出所述待识别方言语音对应的标准普通话文本
。2.
根据权利要求1所述的方言语音识别方法,其特征在于,所述初始识别模型包括编码器和解码器,所述基于所述文本语料

所述标准普通话语音数据和方言语音数据对所述初始识别模型进行训练,得到方言语音识别模型包括:基于所述文本语料和所述文本语料对应的所述标准普通话语音数据对所述编码器进行微调训练,得到微调训练后的编码器;将所述标准普通话语音数据和所述方言语音数据组成语音对,并对所述语音对进行标签标注,其中,将对应于同一文本语料的所述标准普通话语音数据和所述方言语音数据组成的语音对的标签值标注为1,将所述对应于不同文本语料的所述标准普通话语音数据和所述方言语音数据组成的语音对的标签值标注为0;基于标签标注后的所述语音对组成识别训练集;根据所述识别训练集对微调训练后的所述编码器进行优化训练,得到优化训练后的编码器,基于优化训练后的所述编码器和所述解码器生成方言识别模型
。3.
根据权利要求2所述的方言语音识别方法,其特征在于,所述优化训练后的所述编码器包括对标模型编码器和训练模型编码器,所述根据所述识别训练集对微调训练后的所述编码器进行优化训练,得到优化训练后的编码器,基于优化训练后的所述编码器和所述解码器生成方言识别模型包括:分别提取所述语音对中包含的标准普通话语音数据和所述方言语音数据的频谱特征图;将所述标准普通话语音数据的频谱特征图输入所述对标模型编码器中进行数据压缩和编码,得到第一普通话语音池化向量;将所述标准普通话语音数据的频谱特征图和所述方言语音数据的频谱特征图分别输入所述训练模型编码器中进行数据压缩和编码,得到第二普通话语音池化向量和方言语音池化向量;调用损失函数基于所述第一普通话语音池化向量

第二普通话语音池化向量和方言语音池化向量所述计算损失值;基于所述损失值,通过反向传播对所述训练模型编码器进行参数调整,得到调整后的训练模型编码块;基于调整后的所述训练模型编码器

所述对标模型编码器和所述解码器生成方言语音识别模型
。4.
根据权利要求3所述的方言语音识别方法,其特征在于,所述损失函数为基于
softsign
函数构建的,所述调用损失函数基于所述第一普通话语音池化向量

第二普通话语音池化向量和方言语音池化向量所述计算损失值时的计算公式为:
其中,
Lo...

【专利技术属性】
技术研发人员:何熲胡频
申请(专利权)人:上海暖禾脑科学技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1