音素识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35639653 阅读:16 留言:0更新日期:2022-11-19 16:30
本发明专利技术提供一种音素识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语音;将待识别语音输入至音素识别模型,得到音素识别模型输出的音素识别结果;音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到的,第二识别模型包括多个语种分别对应的音素节点。本发明专利技术提供的音素识别方法、装置、电子设备和存储介质,不仅减小了音素识别模型的规模,而且音素识别模型能够准确对不同语种的音素进行区分。对不同语种的音素进行区分。对不同语种的音素进行区分。

【技术实现步骤摘要】
音素识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音识别
,尤其涉及一种音素识别方法、装置、电子设备和存储介质。

技术介绍

[0002]在语音识别领域中,音素作为语音中的最小的单位,若要提高语音识别的准确度,需要提高语音中每个音素的识别准确度。
[0003]在实际应用场景中,语音对应有不同的语种,为了准确对不同语种的语音进行识别,目前多针对每种语种训练一个子模型,并基于这些子模型构建得到音素识别模型,以利用音素识别模型中的各子模型分别对各语种的语音进行音素识别,进而根据音素识别结果得到对应的语音识别结果。然而,随着语种种类的增加,子模型的个数也会增加,导致音素识别模型的规模也会增大,进而影响音素识别模型在本地芯片上的部署。

技术实现思路

[0004]本专利技术提供一种音素识别方法、装置、电子设备和存储介质,用以解决现有技术中音素识别模型规模较大的缺陷。
[0005]本专利技术提供一种音素识别方法,包括:
[0006]确定待识别语音;
[0007]将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;
[0008]所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。
[0009]根据本专利技术提供的一种音素识别方法,所述第一识别模型的确定步骤包括:
[0010]基于各音素节点所对应音素之间的相似度,对所述第二识别模型下的各音素节点进行聚类,得到多个簇类;
[0011]从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,得到所述第一识别模型。
[0012]根据本专利技术提供的一种音素识别方法,所述第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到;
[0013]所述第二识别模型基于如下步骤训练得到:
[0014]将各语种的样本语音输入至所述第二识别模型的特征提取层,得到所述第二识别模型的特征提取层输出的第一音素隐层特征;
[0015]将所述第一音素隐层特征输入至各语种的音素分类层,得到各语种的音素分类层输出的第一音素预测结果;
[0016]基于所述音素级标签与所述第一音素预测结果之间的差异,对所述第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到所述第二识别模型。
[0017]根据本专利技术提供的一种音素识别方法,所述得到所述第二识别模型的特征提取层输出的第一音素隐层特征,之后还包括:
[0018]基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征;
[0019]基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型;所述字级预测结果基于所述字级隐层特征确定,所述语种预测结果基于所述句级隐层特征确定。
[0020]根据本专利技术提供的一种音素识别方法,所述基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型,包括:
[0021]将所述字级隐层特征输入至字级分类层,得到所述字级分类层输出的所述字级预测结果,和/或,将所述句级隐层特征输入至语种分类层,得到所述语种分类层输出的所述语种预测结果;
[0022]基于所述字级标签与所述字级预测结果之间的差异和/或所述语种标签与所述语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型。
[0023]根据本专利技术提供的一种音素识别方法,所述基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征,包括:
[0024]对所述第一音素隐层特征进行滑窗,得到所述字级隐层特征;
[0025]对所述字级隐层特征进行池化,得到所述句级隐层特征。
[0026]根据本专利技术提供的一种音素识别方法,所述音素识别模型基于如下步骤训练得到:
[0027]固定所述第一识别模型的特征提取层的参数;
[0028]将各语种的样本语音输入至所述第一识别模型的特征提取层,得到所述第一识别模型的特征提取层输出的第二音素隐层特征;
[0029]将所述第二音素隐层特征输入至当前音素分类层,得到所述当前音素分类层输出的第二音素预测结果;所述当前音素分类层基于从所述第二识别模型中筛选得到的音素节点构建得到;
[0030]基于所述音素级标签与所述第二音素预测结果之间的差异,对所述当前音素分类层进行参数迭代,得到所述音素识别模型。
[0031]本专利技术还提供一种音素识别装置,包括:
[0032]确定单元,用于确定待识别语音;
[0033]识别单元,用于述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;
[0034]所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包
括多个语种分别对应的音素节点。
[0035]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述音素识别方法。
[0036]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述音素识别方法。
[0037]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述音素识别方法。
[0038]本专利技术提供的音素识别方法、装置、电子设备和存储介质,基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到第一识别模型,不仅减小了第一识别模型的规模,而且在第一识别模型中保留了不同音素对应的音素节点,进而在基于多个语种的样本语音及各样本语音的音素级标签对第一识别模型进行训练后,不仅使得得到的音素识别模型的规模小于第二识别模型,而且音素识别模型能够准确对不同语种的音素进行区分。
附图说明
[0039]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本专利技术提供的音素识别方法的流程示意图;...

【技术保护点】

【技术特征摘要】
1.一种音素识别方法,其特征在于,包括:确定待识别语音;将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。2.根据权利要求1所述的音素识别方法,其特征在于,所述第一识别模型的确定步骤包括:基于各音素节点所对应音素之间的相似度,对所述第二识别模型下的各音素节点进行聚类,得到多个簇类;从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,得到所述第一识别模型。3.根据权利要求1所述的音素识别方法,其特征在于,所述第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到;所述第二识别模型基于如下步骤训练得到:将各语种的样本语音输入至所述第二识别模型的特征提取层,得到所述第二识别模型的特征提取层输出的第一音素隐层特征;将所述第一音素隐层特征输入至各语种的音素分类层,得到各语种的音素分类层输出的第一音素预测结果;基于所述音素级标签与所述第一音素预测结果之间的差异,对所述第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到所述第二识别模型。4.根据权利要求3所述的音素识别方法,其特征在于,所述得到所述第二识别模型的特征提取层输出的第一音素隐层特征,之后还包括:基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征;基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型;所述字级预测结果基于所述字级隐层特征确定,所述语种预测结果基于所述句级隐层特征确定。5.根据权利要求4所述的音素识别方法,其特征在于,所述基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行...

【专利技术属性】
技术研发人员:孙涛申凯万根顺潘嘉刘聪胡国平刘庆峰胡郁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1