语音文件修复方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26691818 阅读:28 留言:0更新日期:2020-12-12 02:44
本申请实施例属于人工智能技术领域,涉及一种语音文件修复方法及相关设备,可应用于智慧医院、金融场所等的智能客服或安全支付,包括:根据帧信号提取语音数据的特征系数;基于预设检测模型和特征系数对语音数据的缺失帧进行定位,并确定缺失帧在语音数据中的组位置为第一组数据;组合第一组数据、第二组数据和第三组数据为第一修复组,获取第二修复组的隐状态参数;输入隐状态参数、第一组数据、第二组数据和第三组数据至预设的第一音频填充网络中,计算得到缺失帧对应的修复频谱;基于预设声码器对修复频谱进行处理,得到所述语音数据的修复语音。此外,本申请还涉及区块链技术,所述修复频谱可存储于区块链中。本申请实现了对受损音频的修复。

【技术实现步骤摘要】
语音文件修复方法、装置、计算机设备及存储介质
本申请涉及人工智能
,尤其涉及一种语音文件修复方法、装置、计算机设备及存储介质。
技术介绍
当前,随着人工智能的高速发展,智能语音处理在日常生活中也越来越被普及。例如,广泛应用于智能客服系统的语音识别、应用于安全支付系统的说话人识别等,均涉及到智能语音处理的部分。然而,无论是客服系统的语音识别还是支付系统的说话人识别,当网络条件较差或设备质量较低时,则会导致语音信号卡顿或丢帧的现象产生。由此,语音修复则是解决此类问题的关键。并且,除此之外,在对历史文献进行考据和影片修复的过程中,语音修复也是其中必要的工作之一。目前对语音修复的工作较少,传统的语音修复更多的是关注于语音的增强,如语音解混响、语音降噪和语音分离等。其中,语音解混响是消除由于空间环境对声音信号的反射产生的声音模糊,如消除空旷环境中的回音;语音降噪用来降低各种环境噪声,语音分离为了抑制来自于其他说话人的声音信号。这类语音增强处理更多的用于目标声音信号的提升,即需要进行处理的声音信号已存在但质量较差;而当信号丢失时,如网络环境较本文档来自技高网...

【技术保护点】
1.一种语音文件修复方法,其特征在于,包括下述步骤:/n划分语音数据为多组帧信号,根据所述帧信号提取所述语音数据的特征系数;/n基于预设检测模型和所述特征系数对所述语音数据的缺失帧进行定位,并确定所述缺失帧在所述语音数据中的组位置为第一组数据;/n获取所述第一组数据的前后组数据,并将所述前后组数据分别作为第二组数据和第三组数据,组合所述第一组数据、所述第二组数据和所述第三组数据为第一修复组,确定所述第一修复组的前一个修复组为第二修复组,获取所述第二修复组的隐状态参数;/n输入所述隐状态参数、所述第一组数据、所述第二组数据和所述第三组数据至预设的第一音频填充网络中,计算得到所述缺失帧对应的修复频...

【技术特征摘要】
1.一种语音文件修复方法,其特征在于,包括下述步骤:
划分语音数据为多组帧信号,根据所述帧信号提取所述语音数据的特征系数;
基于预设检测模型和所述特征系数对所述语音数据的缺失帧进行定位,并确定所述缺失帧在所述语音数据中的组位置为第一组数据;
获取所述第一组数据的前后组数据,并将所述前后组数据分别作为第二组数据和第三组数据,组合所述第一组数据、所述第二组数据和所述第三组数据为第一修复组,确定所述第一修复组的前一个修复组为第二修复组,获取所述第二修复组的隐状态参数;
输入所述隐状态参数、所述第一组数据、所述第二组数据和所述第三组数据至预设的第一音频填充网络中,计算得到所述缺失帧对应的修复频谱;
基于预设声码器对所述修复频谱进行处理,得到所述语音数据的修复语音。


2.根据权利要求1所述的语音文件修复方法,其特征在于,所述基于预设检测模型和所述特征系数对所述语音数据的缺失帧进行定位的步骤包括:
获取预设检测模型,所述预设检测模型包括检测神经网络和全连接层,输入所述特征系数至所述检测神经网络中,计算得到检测值;
输入所述检测值至所述全连接层,计算得到输出结果,根据所述输出结果对所述语音数据的缺失帧进行定位。


3.根据权利要求2所述的语音文件修复配方法,其特征在于,所述获取预设检测模型的步骤包括:
获取预设语料库中的原始文件,切分所述原始文件为多个帧数据,从所有所述帧数据中随机抽取预设个数的子帧数据,将所述子帧数据中预设时间段的信号用高斯白噪声替换,得到替换后的子帧数据,组合所述替换后的子帧数据和未被替换的帧数据为训练数据集;
根据所述训练数据集对基础检测模型进行训练,得到训练成功的基础检测模型为所述语音数据的预设检测模型。


4.根据权利要求1所述的语音文件修复方法,其特征在于,所述获取所述第二修复组的隐状态参数的步骤包括:
确定所述第二修复组的前一个修复组为第三修复组,获取所述第三修复组的元胞状态;
根据所述元胞状态和预设的长短期记忆网络,计算所述第二修复组的隐状态参数。


5.根据权利要求1所述的语音文件修复配方法,其特征在于,所述输入所述隐状态参数、所述第一组数据、所述第二组数据和所述第三组数据至预设的第一音频填充网络中,计算得到所述缺失帧对应的修复频谱的步骤包括:
将所述第一组数据和所述第二组数据输入至预设的第二音频填充网络中,计算得到第一中间变量,将所述第二组数据和所述第三组数据...

【专利技术属性】
技术研发人员:罗剑王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1