【技术实现步骤摘要】
音频训练数据处理方法、装置、设备以及存储介质
本申请涉及数据处理
中的语音技术和深度学习等人工智能
,尤其涉及一种音频训练数据处理方法、装置、设备以及存储介质。
技术介绍
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几个大方向。通常,个性化语音合成可应用于语音定制,通过深度学习技术,对发言人的风格、韵律、音色等个性化语音特征进行学习,并结合标准的文本转换语音合成系统,应用于任意文本的语音合成,不需要耗费大量的时间去专业录音棚录制语音,然后花费很长周期制作语音包。相关个性化语音合成技术中,为了保证语音效果,获取比较大的录音数量,因此,用户出现录音口误、外界噪声混入等各种干扰因素发生的概率会增大,用户在录音风格 ...
【技术保护点】
1.一种音频训练数据处理方法,包括:/n获取多个待处理音频文件,并计算每个待处理音频文件的声纹特征向量;/n将所述每个待处理音频文件的声纹特征向量和标准特征向量进行匹配,根据匹配结果从所述多个待处理音频文件中获取多个候选音频文件;/n获取所述多个候选音频文件对应的多个候选文本信息,计算所述多个候选音频文件和所述多个候选文本信息的对齐似然值;/n根据每个候选音频文件的对齐似然值从所述多个候选音频文件中获取多个目标音频文件。/n
【技术特征摘要】
1.一种音频训练数据处理方法,包括:
获取多个待处理音频文件,并计算每个待处理音频文件的声纹特征向量;
将所述每个待处理音频文件的声纹特征向量和标准特征向量进行匹配,根据匹配结果从所述多个待处理音频文件中获取多个候选音频文件;
获取所述多个候选音频文件对应的多个候选文本信息,计算所述多个候选音频文件和所述多个候选文本信息的对齐似然值;
根据每个候选音频文件的对齐似然值从所述多个候选音频文件中获取多个目标音频文件。
2.如权利要求1所述的方法,其中,所述计算每个待处理音频文件的声纹特征向量,包括:
将所述每个待处理音频文件输入声学模型进行处理,获取所述每个待处理音频文件的声纹特征向量;其中,所述声纹特征向量包括声学特征、词法特征、韵律信息、方言和口音信息、通道信息中的一种或者多种组合。
3.如权利要求1或2所述的方法,在将所述每个待处理音频文件的声纹特征向量和标准特征向量进行匹配之前,还包括:
获取预设数量的声纹特征向量;
计算所述预设数量的声纹特征向量的平均值作为所述标准特征向量。
4.如权利要求1所述的方法,其中,所述将所述每个待处理音频文件的声纹特征向量和标准特征向量进行匹配,根据匹配结果从所述多个待处理音频文件中获取多个候选音频文件,包括:
计算所述每个待处理音频文件的声纹特征向量与所述标准特征向量的余弦相似度;其中,所述余弦相似度与所述声纹特征相似度成正比;
按照所述余弦相似度对所述每个待处理音频文件进行排序,根据排序结果从所述多个待处理音频文件中获取目标数量的候选音频文件。
5.如权利要求1所述的方法,其中,所述计算所述多个候选音频文件和所述多个候选文本信息的对齐似然值,包括:
将所述多个候选音频文件和所述多个候选文本信息一一对应关系输入识别对齐模型,获取所述每个候选音频文件的对齐似然值。
6.如权利要求5所述的方法,所述根据每个候选音频文件的对齐似然值从所述多个候选音频文件中获取多个目标音频文件,包括:
按照所述对齐似然值对所述每个候选音频文件进行排序,根据排序结果从所述多个候选音频文件中获取目标数量的目标音频文件。
7.一种音频训练数据处理装置,包括:
第一获取模块,用于获取多个待处理音频文件;
第一计算模块,用于计算每个待处理音频文件的声纹特征向量;
匹配...
【专利技术属性】
技术研发人员:刘龙飞,陈昌滨,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。