语音标签样本生成方法、装置、设备和存储介质制造方法及图纸

技术编号:39048474 阅读:14 留言:0更新日期:2023-10-10 12:01
本发明专利技术实施例提供语音标签样本生成方法、装置、设备和存储介质,涉及人工智能及数字医疗技术领域。该方法包括:对音频样本进行分段得到多个分段音频,再利用标签修正子模型得到每个分段音频与参考音频的标签相似度,基于标签相似度从参考音频的参考标签中选取得到每个分段音频的修正标签,结合分段音频的预测标签调整损失值,直至得到参数合适的语音标签标注模型。本申请实施例得到的语音标签标注模型对每个分段音频样本生成合适的参考标签,有效降低音频样本标注的难度和成本,并且分段音频样本的标签标注准确性更高,有效提升包含标签的语音样本的生成数量和质量。的语音样本的生成数量和质量。的语音样本的生成数量和质量。

【技术实现步骤摘要】
语音标签样本生成方法、装置、设备和存储介质


[0001]本专利技术涉及人工智能及数字医疗
,尤其涉及语音标签样本生成方法、装置、设备和存储介质。

技术介绍

[0002]语音是实现人机交互的重要媒介,近些年来,需要对语音进行情感识别来提高人机交互质量,例如智能语音客服随时掌握客户的情绪,有助于更好的推进沟通;家用机器人可以根据主人的情感动向,实时提供情绪价值等。或者在医疗领域,通过对患者语音的情感进行自动识别可以支持疾病辅助诊断、健康管理、远程会诊等功能。
[0003]相关技术中,训练语音合成模型使用到的语音样本中包含情感信息,需要大量的标注情感信息的语音数据作为训练样本。一些技术中,利用人工对语音数据标注情感信息,这种方式收集成本较高,实际得到训练样本量不足,导致语音情感识别模型出现过拟合。因此一些技术中,将语音数据划分得到多个小片段,将每个小片段作为一个训练样本,小片段的情感信息继承整句的情感信息。但是由于一句话中的情感信息不是恒定不变的,这种方式得到的语音样本的情感信息并不准确。因此,如何准确生成语音样本的参考标签并扩充语音样本,提升语音情感识别准确性,成为了亟待解决的技术问题。

技术实现思路

[0004]本申请实施例的主要目的在于提出语音标签样本生成方法、装置、设备和存储介质,准确生成语音样本的参考标签扩充语音样本,以提升语音情感识别准确性。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种语音标签样本生成方法,所述语音标签标注模型包括:标签预测子模型和标签修正子模型,所述方法包括:
[0006]对获取的音频样本进行分段,得到多个分段音频;
[0007]利用所述标签预测子模型对所述分段音频进行标签预测,得到预测标签;
[0008]利用所述标签修正子模型根据预设类别集合和预设特征数量序列选取每个语音类别的参考音频;所述预设类别集合包括多个语音类别,每个所述语音类别包括多个参考音频,每个所述参考音频包括参考标签;
[0009]利用所述标签修正子模型选取每个语音类别的参考音频,每个所述参考音频包括参考标签;
[0010]利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度;
[0011]根据所述标签相似度对所述分段音频进行相似度选取,得到所述分段音频的修正标签;
[0012]获取目标音频,将所述目标音频输入至调整参数后的所述语音标签标注模型,得到所述目标音频的多个目标分段音频样本。
[0013]在一实施例中,所述利用所述标签修正子模型选取每个语音类别的参考音频,包括:
[0014]获取预设类别集合;所述预设类别集合包括多个语音类别的音频子集,每个所述语音类别包括多个参考音频;
[0015]基于预设特征数量序列得到每个所述语音类别的特征数量;
[0016]在每个所述语音类别的音频子集中选取所述特征数量的参考音频,构成音频集合。
[0017]在一实施例中,所述标签修正子模型包括第一特征提取器,所述利用所述标签预测子模型对所述分段音频进行标签预测,得到预测标签之前,包括:
[0018]获取所述音频集合;
[0019]利用所述第一特征提取器对所述音频集合中每个所述参考音频进行特征提取,得到所述音频集合中所述参考音频的第一特征向量。
[0020]在一实施例中,所述标签预测子模型包括第二特征提取器,所述利用所述标签预测子模型对所述分段音频进行标签预测,得到预测标签,包括:
[0021]利用所述第二特征提取器对所述分段音频进行特征提取,得到所述分段音频的第二特征向量;
[0022]对所述第二特征向量进行类别识别,得到所述预测标签。
[0023]在一实施例中,所述利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度,包括:
[0024]获取所述分段音频的所述第二特征向量;
[0025]计算所述第二特征向量和每个所述第一特征向量的所述标签相似度。
[0026]在一实施例中,利用所述标签修正子模型根据所述标签相似度对所述分段音频进行相似度选取,得到所述分段音频的修正标签,包括:
[0027]基于预设选取原则根据所述标签相似度选取预设相似度;
[0028]选取所述预设相似度的所述第一特征向量作为目标特征向量;
[0029]选取所述目标特征向量的所述参考音频作为相似音频;
[0030]将所述相似音频的参考标签作为所述分段音频的修正标签。
[0031]在一实施例中,所述对获取的音频样本进行分段,得到多个分段音频,包括:
[0032]获取音频样本;
[0033]按照预设分段数量和预设分段长度对所述音频样本进行分段,得到对应于所述预设分段数量的所述分段音频。
[0034]为实现上述目的,本申请实施例的第二方面提出了一种语音标签样本生成装置,所述语音标签标注模型包括:标签预测子模型和标签修正子模型,所述装置包括:
[0035]音频分段单元,用于对获取的音频样本进行分段,得到多个分段音频;
[0036]标签预测单元,用于利用所述标签预测子模型对所述分段音频进行标签预测,得到预测标签;
[0037]参考音频选取单元,用于利用所述标签修正子模型根据预设类别集合和预设特征数量序列选取每个语音类别的参考音频;所述预设类别集合包括多个语音类别,每个所述语音类别包括多个参考音频,每个所述参考音频包括参考标签;
[0038]标签相似度计算单元,用于利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度;
[0039]标签修正单元,用于利用所述标签修正子模型根据所述标签相似度对所述分段音频进行相似度选取,得到所述分段音频的修正标签;
[0040]参数调整单元,用于根据所述预测标签和所述修正标签的标签损失值调整所述标签预测子模型和所述标签修正子模型的模型参数;
[0041]语音样本生成单元,用于获取目标音频,将所述目标音频输入至调整参数后的所述语音标签标注模型,得到所述目标音频的多个目标分段音频样本。
[0042]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0043]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0044]本申请实施例提出的语音标签样本生成方法、装置、设备和存储介质,通过对获取的音频样本进行分段,得到多个分段音频,然后利用标签预测子模型对分段音频进行标签预测,得到预测标签,利用标签修正子模型选取每个语音类别的参考音频,然后计算每个分段音频和参考音频的标签相似度,根据标签相似度得到分段音频的修正标签,根据预测标签和修正标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音标签样本生成方法,其特征在于,语音标签标注模型包括:标签预测子模型和标签修正子模型,所述方法包括:对获取的音频样本进行分段,得到多个分段音频;利用所述标签预测子模型对所述分段音频进行标签预测,得到预测标签;利用所述标签修正子模型选取每个语音类别的参考音频,每个所述参考音频包括参考标签;利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度;根据所述标签相似度对所述分段音频进行相似度选取,得到所述分段音频的修正标签;根据所述预测标签和所述修正标签的标签损失值调整所述标签预测子模型和所述标签修正子模型的模型参数;获取目标音频,将所述目标音频输入至调整参数后的所述语音标签标注模型,得到所述目标音频的多个目标分段音频样本。2.根据权利要求1所述的语音标签样本生成方法,其特征在于,所述利用所述标签修正子模型选取每个语音类别的参考音频,包括:获取预设类别集合;所述预设类别集合包括多个语音类别的音频子集,每个所述音频子集包括多个参考音频;基于预设特征数量序列得到每个所述语音类别的特征数量;在每个所述语音类别的音频子集中选取所述特征数量的参考音频,构成音频集合。3.根据权利要求2所述的语音标签样本生成方法,其特征在于,所述标签修正子模型包括第一特征提取器,所述利用所述标签预测子模型对所述分段音频进行标签预测,得到预测标签之前,包括:获取所述音频集合;利用所述第一特征提取器对所述音频集合中每个所述参考音频进行特征提取,得到所述音频集合中所述参考音频的第一特征向量。4.根据权利要求3所述的语音标签样本生成方法,其特征在于,所述标签预测子模型包括第二特征提取器,所述利用所述标签预测子模型对所述分段音频进行标签预测,得到预测标签,包括:利用所述第二特征提取器对所述分段音频进行特征提取,得到所述分段音频的第二特征向量;对所述第二特征向量进行类别识别,得到所述预测标签。5.根据权利要求4所述的一种语音标签样本生成方法,其特征在于,所述利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度,包括:获取所述分段音频的所述第二特征向量;计算所述第二特征...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁孙一夫
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1