车内含噪语音数据生成方法、装置以及设备制造方法及图纸

技术编号:30091346 阅读:22 留言:0更新日期:2021-09-18 08:53
本发明专利技术公开了一种车内含噪语音数据生成方法、装置以及设备,本发明专利技术的构思在于预先采集纯实景车噪及纯人声声源以构造出车用语音素材库,该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的两个独立元素,纯人声声源以及纯实景车噪,然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。本发明专利技术实现了对语音素材的复用,解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。音数据样本的制作效率。音数据样本的制作效率。

【技术实现步骤摘要】
车内含噪语音数据生成方法、装置以及设备


[0001]本专利技术涉及车辆语音交互领域,尤其涉及一种车内含噪语音数据生成方法、装置以及设备。

技术介绍

[0002]随着人工智能的兴起,车载、教育、医疗都渗透了人工智能技术,智能语音作为人机交互的重要手段,广泛应用于各个领域。其中车载场景不同于家居、医疗、客服等场景,其噪音环境更具有多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高,因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。
[0003]其中,车内含噪语音数据集的构造往往需要实车在不同场地、环境条件下进行反复、多次实地采录,其制作要求相对较高,导致整体成本也较高;此外,目前现有的车内含噪语音数据的制作方式通常只适用于单次目标效果的评估,也即是说经过反复多次在某一个场景中采集车内含噪语音数据完毕后,该数据集很难进行多场景复用,如果期望采录的车内含噪语音数据能够覆盖全场景,则必然要耗费大量的时间和人力从海量车内含噪语音数据中,进行甄别、挑选、归类等繁琐工作;再有,目前经实车实地采录的车内含噪语音数据在进行效果评估时难以做到单一、稳定因素比对,无法满足实际测试对于准确性的需求。
[0004]据此,为了实现低成本优化车内语音交互识别等语音处理效果,针对不同的噪声场景能够快捷、低成本地制作车内含噪语音数据用于交互测试、模型训练等,则是当下车载人工智能领域最为迫切需要的。

技术实现思路

[0005]鉴于上述,本专利技术旨在提供一种车内含噪语音数据生成方法、装置以及设备,以及相应地提供了一种计算机数据存储介质和计算机程序产品,以能够方便、简洁、低成本且高效率地制作车内含噪语音数据。
[0006]本专利技术采用的技术方案如下:
[0007]第一方面,本专利技术提供了一种车内含噪语音数据生成方法,其中包括:
[0008]预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;
[0009]接收并解析用户输入的数据需求;
[0010]根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;
[0011]将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
[0012]在其中至少一种可能的实现方式中,所述预先创建语音素材库包括:
[0013]预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,
得到纯人声音频数据;
[0014]预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。
[0015]在其中至少一种可能的实现方式中,所述解析用户输入的数据需求包括:
[0016]根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。
[0017]在其中至少一种可能的实现方式中,所述解析后的数据需求包括如下需求信息:
[0018]主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。
[0019]在其中至少一种可能的实现方式中,所述根据解析后的数据需求,从所述语音素材库中分别匹配出对应的纯人声音频数据以及实车纯噪音音频数据包括:
[0020]基于所述需求信息以及标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;
[0021]基于所述需求信息以及标注出的所述场景噪声信息,从所述语音素材库中匹配出最优的实车纯噪音音频数据。
[0022]在其中至少一种可能的实现方式中,所述方法还包括:
[0023]从匹配出的纯人声音频数据中提取当前人声的语音基元;
[0024]利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
[0025]将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
[0026]第二方面,本专利技术提供了一种车内含噪语音数据生成装置,其中包括:
[0027]语音素材库创建模块,用于预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;
[0028]数据需求获取模块,用于接收并解析用户输入的数据需求;
[0029]需求匹配模块,用于根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;
[0030]目标数据生成模块,用于将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
[0031]在其中至少一种可能的实现方式中,所述语音素材库创建模块包括:
[0032]纯人声音频数据制备单元,用于预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,得到纯人声音频数据;
[0033]实车纯噪音音频数据制备单元,用于预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。
[0034]在其中至少一种可能的实现方式中,所述数据需求获取模块具体用于:
[0035]根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。
[0036]在其中至少一种可能的实现方式中,所述解析后的数据需求包括如下需求信息:
[0037]主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。
[0038]在其中至少一种可能的实现方式中,所述需求匹配模块包括:
[0039]纯人声音频匹配单元,用于基于所述需求信息以及标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;
[0040]实车纯噪音音频匹配单元,用于基于所述需求信息以及标注出的所述场景噪声信息,从所述语音素材库中匹配出最优的实车纯噪音音频数据。
[0041]在其中至少一种可能的实现方式中,所述装置还包括:
[0042]语音基元提取模块,用于从匹配出的纯人声音频数据中提取当前人声的语音基元;
[0043]语音合成模块,用于利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
[0044]目标数据扩增模块,用于将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
[0045]第三方面,本专利技术提供了一种电子设备,其中包括:
[0046]一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种车内含噪语音数据生成方法,其特征在于,包括:预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;接收并解析用户输入的数据需求;根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。2.根据权利要求1所述的车内含噪语音数据生成方法,其特征在于,所述预先创建语音素材库包括:预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,得到纯人声音频数据;预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。3.根据权利要求2所述的车内含噪语音数据生成方法,其特征在于,所述解析用户输入的数据需求包括:根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。4.根据权利要求2所述的车内含噪语音数据生成方法,其特征在于,所述解析后的数据需求包括如下需求信息:主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。5.根据权利要求4所述的车内含噪语音数据生成方法,其特征在于,所述根据解析后的数据需求,从所述语音素材库中分别匹配出对应的纯人声音频数据以及实车纯噪音音频数据包括:基于所述需求信息以及标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;基于所述需求信息以及标注出的所述场景噪声信息,从所述语音素材库中匹配出最优的实车纯噪音音频数据。6.根据权利要求1~5任一项所述的车内含噪语音数据生成方法,其特征在于,所述方法还...

【专利技术属性】
技术研发人员:朱培培邓引引于超敏
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1