音频处理方法、装置及存储介质制造方法及图纸

技术编号：38012189 阅读：10 留言：0更新日期：2023-06-30 10:34

本申请实施例涉及人工智能技术领域，并提供一种音频处理方法、装置及存储介质，该方法包括：获取目标对象在第一场景下录制的根视频；获取驱动生成虚拟形象的音频文件；对该音频文件中分贝小于预设阈值且播放时长大干预设时长的异常分片对应的音频数据进行第一过滤处理，获得第一音频数据；根据音频数据对应的信号属性对该第一音频数据进行第二过滤处理，获得第二音频数据；利用该第二音频数据驱动该根视频，获得该目标对象的虚拟形象。本方案能够解决语音识别结果与人物唇形不一致的现象，提高虚拟形象的视觉效果。提高虚拟形象的视觉效果。提高虚拟形象的视觉效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置及存储介质

[0001]本申请涉及人工智能
，进一步涉及计算机视觉
，尤其涉及一种音频处理方法、装置及存储介质。

技术介绍

[0002]目前，虚拟形象合成可以应用在不同的场合，例如：在线教育过程中，由虚拟老师提供教学服务，不仅可以大大减轻老师的负担，还可以降低教学成本，比单纯的录播课等有更好的教学体验。除此之外，虚拟形象还可以应用在更广泛的场合中，例如：人工智能(Artificial Intelligence，AI)新闻主播、游戏、动画和应用程序等实际的商业场景中具有极大的商业价值。目前对虚拟形象的合成，往往采用自然人在特定环境下录制的音频文件驱动根视频生成虚拟视频，但在特定环境下可能存在噪声，例如说话的时候夹杂着拍桌子、跺脚、鸟叫、咳嗽等影响(即混合音)，导致后续音频驱动根视频时，语音识别的结果与人物唇形不一致，影响后期虚拟形象的视觉效果。

技术实现思路

[0003]本申请实施例提供了一种音频处理方法、装置及存储介质，能够解决语音识别结果与人物唇形不一致的现象，提高虚拟形象的视觉效果。
[0004]第一方面中，本申请实施例提供一种音频处理方法，该方法包括：
[0005]获取目标对象在第一场景下录制的根视频；
[0006]获取驱动生成虚拟形象的音频文件；
[0007]对该音频文件中包含异常分片的音频数据进行第一过滤处理，获得第一音频数据，其中，该异常分片为分贝小于预设阈值，且播放时长大于预设时长的音频分片；
[0008]根据音频数据...

【技术保护点】

【技术特征摘要】
1.一种音频频理方法，其特征在于，包括：获取目标标象在第一场景下录制的根视频；获取驱驱生成虚拟形象的音频文件；标所述音频文件中包含异常分片的音频数据进行第一过过频理，获得第一音频数据；其中，所述异常分片为分贝小于预设阈预，且播放时时大于预预时时的音频分片；根据音频数据标对的信号属性标所述第一音频数据进行第二过过频理，获得第二音频数据；利用所述第二音频数据驱驱所述根视频，获得所述目标标象的虚拟形象。2.根据权利要求1所述的音频频理方法，其特征在于，所述根据音频数据标对的信号属性标所述第一音频数据进行第二过过频理，获得第二音频数据，包括：根据信号质量标所述第一音频数据进行第二过过频理，将所述第一音频数据中信号质量不符合预预要求的音频数据过除，以获得所述第二音频数据。3.根据权利要求2所述的音频频理方法，其特征在于，所述根据信号质量标所述第一音频数据进行第二过过频理，包括：提取所述第一音频数据中声音的波形；将所述第一音频数据中声音的波形与预置的噪音类型的波形进行比标，将与所述预置的噪音类型的波形匹配的音频数据进行过除。4.根据权利要求2所述的音频频理方法，其特征在于，所述根据信号质量标所述第一音频数据进行第二过过频理，包括：提取所述第一音频数据中声音的信噪比和/或波段时度；将所述第一音频数据中声音的信噪比和/或波段时度达到预设阈预的音频数据进行过除。5.根据权利要求1所述的音频频理方法，其特征在于，所述根据音频数据标对的信号属性标所述第一音频数据进行第二过过频理，获得第二音频数据，包括：根据音色识识标所述第一音频数据进行第二过过频理，将所述第一音频数据中确定为噪音...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：北京生数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人