语种识别模型的训练方法、语种识别方法及相关设备技术

技术编号:27659047 阅读:21 留言:0更新日期:2021-03-12 14:25
本发明专利技术涉及语音处理技术领域,提供一种语种识别模型的训练方法、语种识别方法及相关设备。所述语种识别模型的训练方法包括:获得样本数据,包括:获得初始语音及其目标语种;对所述初始语音进行预处理,获得语谱图;训练语种识别模型,包括:通过卷积神经网络提取所述语谱图的空间特征;通过循环神经网络提取所述空间特征的时序特征;基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及,根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。本发明专利技术能够对语音的语种做出高效准确的分类,为后续的语音识别提供数据支持。

【技术实现步骤摘要】
语种识别模型的训练方法、语种识别方法及相关设备
本专利技术涉及语音处理
,具体地说,涉及一种语种识别模型的训练方法、语种识别方法及相关设备。
技术介绍
随着人工智能技术的发展,语音识别在众多工业场景落地。但是,有的工业场景存在多语种,而目前的语音识别模型只支持单语种。因此在数据源存在多语种的情形下,对语音进行转写之前,需先判别语音的语种,再选择对应语种的语音识别模型进行语音识别。目前的语种判别工作,常通过人工听取声音的音调、音色等进行分辨,效率低,准确性差。需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本专利技术提供一种语种识别模型的训练方法、语种识别方法及相关设备,能够对语音的语种做出高效准确的分类,为后续的语音识别提供数据支持。本专利技术的一个方面提供一种语种识别模型的训练方法,包括:获得样本数据,包括:获得初始语音及其目标语种;对所述初始语音进行预处理,获得语谱图;训练语种识别模型,包括:通过卷积神经网络提取所述语谱图的空间特征;通过循环神经网络提取所述空间特征的时序特征;基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。在一些实施例中,所述的训练方法还包括:提取所述时序特征后,通过注意力机制对所述时序特征进行聚合;对所述空间特征进行全连接运算时,基于聚合后的所述时序特征对所述空间特征进行全连接运算。在一些实施例中,所述通过注意力机制对所述时序特征进行聚合,包括:获得每个所述时序特征对应的隐向量;对所述隐向量进行注意力计算,获得上下文向量;以及,根据所述上下文向量,对各所述时序特征进行聚合。在一些实施例中,对所述隐向量进行注意力计算的公式为:uit=tanh(Wwhit+bw);其中,hit是t时刻所述循环神经网络输出的对应所述时序特征的隐向量,si是经注意力计算获得的i时刻的上下文向量,Ww、bw和uw为参数。在一些实施例中,所述卷积神经网络包括三层,所述循环神经网络包括两层。在一些实施例中,所述对所述初始语音进行预处理,包括:按帧对所述初始语音进行快速傅里叶变换,获得各帧的频谱;以及,将各帧的所述频谱沿时序拼合成语谱图。本专利技术的又一个方面提供一种语种识别方法,包括:获得待识别语音的有效语音片段;对所述有效语音片段进行预处理,获得语谱图;以及,将所述语谱图输入一语种识别模型,获得语种识别结果,所述语种识别模型通过上述任意实施例所述的训练方法训练生成。在一些实施例中,所述获得待识别语音的有效语音片段,包括:对所述待识别语音进行端点检测,筛除非有效帧,获得语音片段;将所述语音片段填充至预设时长,形成有效语音片段。本专利技术的又一个方面提供一种语种识别模型的训练装置,包括:样本数据获取模块,配置为:获得初始语音及其目标语种;对所述初始语音进行预处理,获得语谱图;语种识别模型训练模块,配置为:通过卷积神经网络提取所述语谱图的空间特征;通过循环神经网络提取所述空间特征的时序特征;基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及,根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。本专利技术的又一个方面提供一种语种识别装置,包括:预处理模块,用于获得待识别语音的有效语音片段;语谱图生成模块,用于对所述有效语音片段进行预处理,获得语谱图;以及语种识别模块,用于将所述语谱图输入一语种识别模型,获得语种识别结果,所述语种识别模型通过上述任意实施例所述的训练方法训练生成。本专利技术的又一个方面提供一种电子设备,包括:一处理器;一存储器,所述存储器中存储有可执行指令;其中,所述可执行指令被所述处理器执行时,实现上述任意实施例所述的语种识别模型的训练方法和/或语种识别方法。本专利技术的又一个方面提供一种计算机可读的存储介质,用于存储程序,所述程序被执行时实现上述任意实施例所述的语种识别模型的训练方法和/或语种识别方法。本专利技术与现有技术相比的有益效果至少包括:基于语音的频域信息,获得语音的语谱图;通过基于深度学习的卷积神经网络和循环神经网络,获得语谱图的空间特征和时序特征;进一步通过全连接和分类器,识别语音语种,实现对语音语种的高效准确分类,为后续的语音识别提供数据支持。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本专利技术实施例中语种识别模型的训练方法的步骤示意图;图2示出本专利技术实施例中语种识别模型的网络结构示意图;图3示出本专利技术实施例中语种识别模型的训练装置的模块示意图;图4示出本专利技术实施例中语种识别方法的步骤示意图;图5示出本专利技术实施例中语种识别装置的模块示意图;图6示出本专利技术实施例中电子设备的结构示意图;以及图7示出本专利技术实施例中计算机可读的存储介质的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使本专利技术全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。此外,附图仅为本专利技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。下面实施例中的步骤序号仅用于表示不同的执行内容,并不严格限定步骤之间的执行顺序。具体描述时使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。需要说明的是,在不冲突的情况下,本专利技术的实施例及不同实施例中的特征可以相互组合。图1示出实施例中语种识别模型的训练方法的主要步骤,参照图1所示,本实施例中语种识别模型的训练方法包括:在步骤S110中,获得样本数据,包括:S110-10,获得初始语音及其目标语种;S110-20,对初始语音进行预处理,获得语谱图;在步骤S120中,训练语种识别模型,包括:S120-10,通过卷积神经网络提取语谱图的空间特征;S120-20,通过循环神经网络提取空间特征的时序特征;S120本文档来自技高网...

【技术保护点】
1.一种语种识别模型的训练方法,其特征在于,包括:/n获得样本数据,包括:/n获得初始语音及其目标语种;/n对所述初始语音进行预处理,获得语谱图;/n训练语种识别模型,包括:/n通过卷积神经网络提取所述语谱图的空间特征;/n通过循环神经网络提取所述空间特征的时序特征;/n基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及/n根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。/n

【技术特征摘要】
1.一种语种识别模型的训练方法,其特征在于,包括:
获得样本数据,包括:
获得初始语音及其目标语种;
对所述初始语音进行预处理,获得语谱图;
训练语种识别模型,包括:
通过卷积神经网络提取所述语谱图的空间特征;
通过循环神经网络提取所述空间特征的时序特征;
基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及
根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。


2.如权利要求1所述的训练方法,其特征在于,还包括:
提取所述时序特征后,通过注意力机制对所述时序特征进行聚合;
对所述空间特征进行全连接运算时,基于聚合后的所述时序特征对所述空间特征进行全连接运算。


3.如权利要求2所述的训练方法,其特征在于,所述通过注意力机制对所述时序特征进行聚合,包括:
获得每个所述时序特征对应的隐向量;
对所述隐向量进行注意力计算,获得上下文向量;以及
根据所述上下文向量,对各所述时序特征进行聚合。


4.如权利要求3所述的训练方法,其特征在于,对所述隐向量进行注意力计算的公式为:
uit=tanh(Wwhit+bw);






其中,hit是t时刻所述循环神经网络输出的对应所述时序特征的隐向量,si是经注意力计算获得的i时刻的上下文向量,Ww、bw和uw是参数。


5.如权利要求1所述的训练方法,其特征在于,所述卷积神经网络包括三层,所述循环神经网络包括两层。


6.如权利要求1所述的训练方法,其特征在于,所述对所述初始语音进行预处理,包括:
按帧对所述初始语音进行快速傅里叶变换,获得各帧的频谱;以及
将各帧的所述频谱沿时序拼合成语谱图。


7.一种语种识别方法,其特征在于,包括:
获得待识别语音的有效...

【专利技术属性】
技术研发人员:邓艳江罗超胡泓李巍
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1