一种训练语种识别模型、语种识别的方法及装置制造方法及图纸

技术编号:36229172 阅读:24 留言:0更新日期:2023-01-04 12:28
本说明书实施例提供一种训练语种识别模型、语种识别的方法及装置,语种识别模型包括:提取网络、聚合网络和分类网络,提取网络包括串行设置的预设数量个包括自注意力子层和卷积子层的特征提取层,该方法包括,获得目标语音片段对应的语音特征,目标语音片段具有语种标签;利用预设数量个特征提取层,对语音特征进行预设数量次特征提取,得到帧级别特征向量;特征提取包括,利用自注意力子层进行基于自注意力的特征处理和利用卷积子层进行卷积处理;利用聚合网络,基于自注意力机制和统计机制对帧级别特征向量进行聚合,得到聚合特征向量;利用分类网络处理聚合特征向量,确定目标语音片段的预测语种;根据预测语种和语种标签,更新语种识别模型。更新语种识别模型。更新语种识别模型。

【技术实现步骤摘要】
一种训练语种识别模型、语种识别的方法及装置


[0001]本说明书涉及语音识别
,尤其涉及一种训练语种识别模型、利用语种识别模型进行语种识别的方法及装置。

技术介绍

[0002]语种识别,指的是分辨出一段语音所属的语言种类(语种),其在多语种语音处理系统里具有很重要的作用。随着多语种乃至多方言的交流沟通的日益频繁,多语种语音服务面临很大的挑战。由于多语种语音的复杂性,以及词表规模的线性增加,用一个通用语音识别模型对多语种语音进行语音识别的效果不太理想。
[0003]目前,进行语音识别的方案大多为,基于语种识别模型分辨出语种后,再用该语种对应的特定语音识别模型进行语音识别,从而提升语音识别准确率。那么,如何准确地确定出一段语音所属的语种至关重要。

技术实现思路

[0004]本说明书一个或多个实施例提供了一种训练语种识别模型、利用语种识别模型进行语种识别的方法及装置,以实现训练得到可准确识别语音频段所属语种的语种识别模型,为提高语音识别结果的准确性提供基础。
[0005]根据第一方面,提供一种训练语种识别模型的方法,所述语种识别模型包括:提取网络、聚合网络和分类网络,所述提取网络包括串行设置的预设数量个特征提取层,每个特征提取层包括自注意力子层和卷积子层,所述方法包括:获得目标语音片段对应的语音特征,所述目标语音片段具有语种标签;利用所述预设数量个特征提取层,对所述语音特征进行预设数量次特征提取,得到帧级别特征向量;所述特征提取包括,利用所述自注意力子层进行基于自注意力的特征处理,和利用所述卷积子层进行卷积处理;利用所述聚合网络,基于自注意力机制和统计机制对所述帧级别特征向量进行聚合,得到聚合特征向量;利用所述分类网络处理所述聚合特征向量,确定所述目标语音片段的预测语种;根据所述预测语种和所述语种标签,更新所述语种识别模型。
[0006]根据第二方面,提供一种利用语种识别模型进行语种识别的方法,所述语种识别模型包括:提取网络、聚合网络和分类网络,所述提取网络包括串行设置的预设数量个特征提取层,每个特征提取层包括自注意力子层和卷积子层,所述方法包括:获得待测语音片段对应的语音特征;利用所述预设数量个特征提取层,对所述语音特征进行预设数量次特征提取,得到帧级别特征向量,所述特征提取包括,利用所述自注意力子层进行基于自注意力的特征处理,和利用所述卷积子层进行卷积处理;利用所述聚合网络,基于自注意力机制和统计机制对所述帧级别特征向量进行聚
合,得到聚合特征向量;利用所述分类网络处理所述聚合特征向量,确定所述待测语音片段的目标语种。
[0007]根据第三方面,提供一种训练语种识别模型的装置,所述语种识别模型包括:提取网络、聚合网络和分类网络,所述提取网络包括串行设置的预设数量个特征提取层,每个特征提取层包括自注意力子层和卷积子层,所述装置包括:第一获得模块,配置为获得目标语音片段对应的语音特征,所述目标语音片段具有语种标签;第一特征提取模块,配置为利用所述预设数量个特征提取层,对所述语音特征进行预设数量次特征提取,得到帧级别特征向量;所述特征提取包括,利用所述自注意力子层进行基于自注意力的特征处理,和利用所述卷积子层进行卷积处理;第一聚合模块,配置为利用所述聚合网络,基于自注意力机制和统计机制对所述帧级别特征向量进行聚合,得到聚合特征向量;第一确定模块,配置为利用所述分类网络处理所述聚合特征向量,确定所述目标语音片段的预测语种;更新模块,配置为根据所述预测语种和所述语种标签,更新所述语种识别模型。
[0008]根据第四方面,提供一种利用语种识别模型进行语种识别的装置,所述语种识别模型包括:提取网络、聚合网络和分类网络,所述提取网络包括串行设置的预设数量个特征提取层,每个特征提取层包括自注意力子层和卷积子层,所述装置包括:第二获得模块,配置为获得待测语音片段对应的语音特征;第二特征提取模块,配置为利用所述预设数量个特征提取层,对所述语音特征进行预设数量次特征提取,得到帧级别特征向量,所述特征提取包括,利用所述自注意力子层进行基于自注意力的特征处理,和利用所述卷积子层进行卷积处理;第二聚合模块,配置为利用所述聚合网络,基于自注意力机制和统计机制对所述帧级别特征向量进行聚合,得到聚合特征向量;第二确定模块,配置为利用所述分类网络处理所述聚合特征向量,确定所述待测语音片段的目标语种。
[0009]根据第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面所述的方法。
[0010]根据第五方面,提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面所述的方法。
[0011]根据本说明书实施例提供的方法及装置,其中语种识别模型包括:提取网络、聚合网络和分类网络,提取网络包括串行设置的预设数量个特征提取层,每个特征提取层包括自注意力子层和卷积子层,相应的,获得具有语种标签的目标语音片段对应的语音特征之后,利用预设数量个特征提取层,对语音特征进行预设数量次特征提取,以利用其中的自注意力子层针对相应的输入数据,进行基于自注意力的特征处理,和利用卷积子层进行卷积处理,得到帧级别特征向量,该帧级别特征向量既包含目标语音片段的局部信息又包含其上下文信息,可以更好的表征出目标语音片段的特点。之后,利用聚合网络,基于自注意力机制和统计机制对帧级别特征向量进行聚合,得到聚合有聚合特征向量,其中聚合有对于
语种识别任务而言较重要的目标语音片段的局部信息和上下文信息。利用分类网络处理该类聚合特征向量,可以得到较准确的目标语音片段的预测语种,继而结合语种标签,更新语种识别模型。上述过程中,特征提取层包括自注意力子层和卷积子层,在进行特征提取时,既关注了语音片段的局部信息,又关注了语音片段中可以隐式地反映出不同语种之间表达方式上的区别的上下文信息,所提取的帧级别特征向量以及聚合得到的聚合特征向量可以更准确的表征出语音片段的特点,相应的,训练所得的语种识别模型更有助于语种识别,得到准确性更高的语种识别结果。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本说明书披露的一个实施例的实施框架示意图;图2为实施例提供的训练语种识别模型的方法的一种流程示意图;图3为实施例提供的特征提取层的一种框架示意图;图4为实施例提供的利用语种识别模型进行语种识别的方法的一种流程示意图;图5为实施例提供的训练语种识别模型的装置的一种示意性框图;图6为实施例提供的利用语种识别模型进行语种识别的装置的一种示意性框图。
具体实施方式
[0014]下面将结合附图,详细描述本说明书实施例的技术方案。
[0015]本说明书本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练语种识别模型的方法,所述语种识别模型包括:提取网络、聚合网络和分类网络,所述提取网络包括串行设置的预设数量个特征提取层,每个特征提取层包括自注意力子层和卷积子层,所述方法包括:获得目标语音片段对应的语音特征,所述目标语音片段具有语种标签;利用所述预设数量个特征提取层,对所述语音特征进行预设数量次特征提取,得到帧级别特征向量;所述特征提取包括,利用所述自注意力子层进行基于自注意力的特征处理,和利用所述卷积子层进行卷积处理;利用所述聚合网络,基于自注意力机制和统计机制对所述帧级别特征向量进行聚合,得到聚合特征向量;利用所述分类网络处理所述聚合特征向量,确定所述目标语音片段的预测语种;根据所述预测语种和所述语种标签,更新所述语种识别模型。2.如权利要求1所述的方法,其中,所述语音特征是对所述目标语音片段的频谱特征进行数据增强所得到的特征。3.如权利要求1所述的方法,其中,所述提取网络还包括:采样层;所述对所述语音特征进行预设数量次特征提取,包括:利用所述采样层对所述语音特征进行采样,以得到采样后的语音特征;利用所述预设数量个特征提取层,对所述采样后的语音特征进行预设数量次特征提取。4.如权利要求1所述的方法,其中,所述预设数量个特征提取层包括目标特征提取层,该目标特征提取层还包括第一前馈子层和第二前馈子层;所述对语音特征进行预设数量次特征提取,包括:将当前语音特征输入第一前馈子层,得到第一特征,所述当前语音特征为输入到所述目标特征提取层的语音特征;利用所述第一特征和所述当前语音特征确定第二特征,将其输入所述目标特征提取层的自注意力子层,得到第三特征;利用所述第三特征和所述第二特征确定第四特征,将其输入所述目标特征提取层的卷积子层,得到第五特征;利用所述第四特征和所述第五特征确定第六特征,将其输入所述第二前馈子层,得到第七特征;基于所述第六特征和所述第七特征,确定所述目标特征提取层的输出特征。5.如权利要求1所述的方法,其中,所述利用所述聚合网络,基于自注意力机制和统计机制对所述帧级别特征向量进行聚合,得到聚合特征向量,包括:利用所述聚合网络,确定所述帧级别特征向量中各帧特征向量对应的注意力值,基于各注意力值确定所述帧级别特征向量对应的均值向量和标准差向量;基于所述均值向量和标准差向量,确定所述聚合特征向量。6.如权利要求1所述的方法,其中,所述分类网络包括全连接层、批量归一化层和激活函数;所述利用所述分类网络处理所述聚合特征向量,包括:依次利用所述全连接层和批量归一化层,对所述聚合特征向量进行变换,得到变换特
征;利用所述激活函数,处理所...

【专利技术属性】
技术研发人员:赵闻飙吕安旗王志铭
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1