音频处理方法、装置及存储介质制造方法及图纸

技术编号:38012189 阅读:10 留言:0更新日期:2023-06-30 10:34
本申请实施例涉及人工智能技术领域,并提供一种音频处理方法、装置及存储介质,该方法包括:获取目标对象在第一场景下录制的根视频;获取驱动生成虚拟形象的音频文件;对该音频文件中分贝小于预设阈值且播放时长大干预设时长的异常分片对应的音频数据进行第一过滤处理,获得第一音频数据;根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理,获得第二音频数据;利用该第二音频数据驱动该根视频,获得该目标对象的虚拟形象。本方案能够解决语音识别结果与人物唇形不一致的现象,提高虚拟形象的视觉效果。提高虚拟形象的视觉效果。提高虚拟形象的视觉效果。

【技术实现步骤摘要】
音频处理方法、装置及存储介质


[0001]本申请涉及人工智能
,进一步涉及计算机视觉
,尤其涉及一种音频处理方法、装置及存储介质。

技术介绍

[0002]目前,虚拟形象合成可以应用在不同的场合,例如:在线教育过程中,由虚拟老师提供教学服务,不仅可以大大减轻老师的负担,还可以降低教学成本,比单纯的录播课等有更好的教学体验。除此之外,虚拟形象还可以应用在更广泛的场合中,例如:人工智能(Artificial Intelligence,AI)新闻主播、游戏、动画和应用程序等实际的商业场景中具有极大的商业价值。目前对虚拟形象的合成,往往采用自然人在特定环境下录制的音频文件驱动根视频生成虚拟视频,但在特定环境下可能存在噪声,例如说话的时候夹杂着拍桌子、跺脚、鸟叫、咳嗽等影响(即混合音),导致后续音频驱动根视频时,语音识别的结果与人物唇形不一致,影响后期虚拟形象的视觉效果。

技术实现思路

[0003]本申请实施例提供了一种音频处理方法、装置及存储介质,能够解决语音识别结果与人物唇形不一致的现象,提高虚拟形象的视觉效果。
[0004]第一方面中,本申请实施例提供一种音频处理方法,该方法包括:
[0005]获取目标对象在第一场景下录制的根视频;
[0006]获取驱动生成虚拟形象的音频文件;
[0007]对该音频文件中包含异常分片的音频数据进行第一过滤处理,获得第一音频数据,其中,该异常分片为分贝小于预设阈值,且播放时长大于预设时长的音频分片;
[0008]根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理,获得第二音频数据;
[0009]利用该第二音频数据驱动该根视频,获得该目标对象的虚拟形象。
[0010]一些实施方式中,该根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理,获得第二音频数据,包括:
[0011]根据信号质量对该第一音频数据进行第二过滤处理,将该第一音频数据中信号质量不符合预设要求的音频数据滤除,以获得该第二音频数据。
[0012]一些实施方式中,该根据信号质量对该第一音频数据进行第二过滤处理,包括:
[0013]提取该第一音频数据中声音的波形;
[0014]将该第一音频数据中声音的波形与预置的噪音类型的波形进行比对,将与该预置的噪音类型的波形匹配的音频数据进行滤除。
[0015]一些实施方式中,该根据信号质量对该第一音频数据进行第二过滤处理,包括:
[0016]提取该第一音频数据中声音的信噪比和/或波段长度;
[0017]将该第一音频数据中声音的信噪比和/或波段长度达到预设阈值的音频数据进行
滤除。
[0018]一些实施方式中,该根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理,获得第二音频数据,包括:
[0019]根据音色识别对该第一音频数据进行第二过滤处理,将该第一音频数据中确定为噪音类型的音频数据滤除,以获得该第二音频数据。
[0020]一些实施方式中,该根据音色识别对该第一音频数据进行第二过滤处理,包括:
[0021]提取该第一音频数据中声音的谐波成分;
[0022]将该第一音频数据中声音的谐波成分的幅度达到预设阈值的音频数据进行滤除。
[0023]一些实施方式中,该获得第二音频数据后,该方法还包括:
[0024]对该第二音频数据进行特征提取以得到该第二音频数据的特征;基于该第二音频数据的特征,利用训练好的音频重构神经网络将该第二音频数据重构为音质接近于无损音频的输出音频数据。
[0025]第二方面中,本申请实施例提供了一种音频处理装置,该音频处理装置具有实现对应于上述第一方面提供的音频处理方法的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,模块可以是软件和/或硬件。
[0026]一些实施方式中,该音频处理装置包括:
[0027]获取模块,用于获取目标对象在第一场景下录制的根视频,以及获取驱动生成虚拟形象的音频文件;
[0028]处理模块,用于对该音频文件中包含异常分片的音频数据进行第一过滤处理,获得第一音频数据,其中,该异常分片为分贝小于预设阈值,且播放时长大于预设时长的音频分片;根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理,获得第二音频数据;以及利用该第二音频数据驱动该根视频,获得该目标对象的虚拟形象。
[0029]一些实施方式中,上述处理模块具体用于:
[0030]根据信号质量对该第一音频数据进行第二过滤处理,将该第一音频数据中信号质量不符合预设要求的音频数据滤除,以获得该第二音频数据。
[0031]一些实施方式中,上述处理模块具体用于:
[0032]提取该第一音频数据中声音的波形;
[0033]将该第一音频数据中声音的波形与预置的噪音类型的波形进行比对,将与该预置的噪音类型的波形匹配的音频数据进行滤除。
[0034]一些实施方式中,上述处理模块具体用于:
[0035]提取该第一音频数据中声音的信噪比和/或波段长度;
[0036]将该第一音频数据中声音的信噪比和/或波段长度达到预设阈值的音频数据进行滤除。
[0037]一些实施方式中,上述处理模块具体用于:
[0038]根据音色识别对该第一音频数据进行第二过滤处理,将该第一音频数据中确定为噪音类型的音频数据滤除,以获得该第二音频数据。
[0039]一些实施方式中,上述处理模块具体用于:
[0040]提取该第一音频数据中声音的谐波成分;
[0041]将该第一音频数据中声音的谐波成分的幅度达到预设阈值的音频数据进行滤除。
[0042]一些实施方式中,上述处理模块还用于:
[0043]对该第二音频数据进行特征提取以得到该第二音频数据的特征;基于该第二音频数据的特征,利用训练好的音频重构神经网络将该第二音频数据重构为音质接近于无损音频的输出音频数据。
[0044]第三方面中,本申请实施例提供一种电子设备,该电子设备包括:至少一个处理器和存储器;其中,该存储器用于存储计算机程序,该处理器用于调用该存储器中存储的计算机程序来执行上述第一方面或者第一方面的任一种实施方式提供的任一种音频处理方法中的步骤。
[0045]第四方面中,本申请实施例提供一种计算机可读存储介质,具有实现对应于上述第一方面提供的音频处理方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,该模块可以是软件和/或硬件。具体的,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例中第一方面或者第一方面的任一种实施方式提供的任一种音频处理方法中的步骤。
[0046]本申请实施例提供了一种新的方案来提高虚拟形象的视觉效果。与现有技术相比,该方案通过对音频文件中分贝小于预设阈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频频理方法,其特征在于,包括:获取目标标象在第一场景下录制的根视频;获取驱驱生成虚拟形象的音频文件;标所述音频文件中包含异常分片的音频数据进行第一过过频理,获得第一音频数据;其中,所述异常分片为分贝小于预设阈预,且播放时时大于预预时时的音频分片;根据音频数据标对的信号属性标所述第一音频数据进行第二过过频理,获得第二音频数据;利用所述第二音频数据驱驱所述根视频,获得所述目标标象的虚拟形象。2.根据权利要求1所述的音频频理方法,其特征在于,所述根据音频数据标对的信号属性标所述第一音频数据进行第二过过频理,获得第二音频数据,包括:根据信号质量标所述第一音频数据进行第二过过频理,将所述第一音频数据中信号质量不符合预预要求的音频数据过除,以获得所述第二音频数据。3.根据权利要求2所述的音频频理方法,其特征在于,所述根据信号质量标所述第一音频数据进行第二过过频理,包括:提取所述第一音频数据中声音的波形;将所述第一音频数据中声音的波形与预置的噪音类型的波形进行比标,将与所述预置的噪音类型的波形匹配的音频数据进行过除。4.根据权利要求2所述的音频频理方法,其特征在于,所述根据信号质量标所述第一音频数据进行第二过过频理,包括:提取所述第一音频数据中声音的信噪比和/或波段时度;将所述第一音频数据中声音的信噪比和/或波段时度达到预设阈预的音频数据进行过除。5.根据权利要求1所述的音频频理方法,其特征在于,所述根据音频数据标对的信号属性标所述第一音频数据进行第二过过频理,获得第二音频数据,包括:根据音色识识标所述第一音频数据进行第二过过频理,将所述第一音频数据中确定为噪音...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京生数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1