直播录制的音频数据采集处理方法及相关装置制造方法及图纸

技术编号:37889442 阅读:13 留言:0更新日期:2023-06-18 11:53
本发明专利技术涉及音频处理领域,公开了一种直播录制的音频数据采集处理方法及相关装置,用于提高录制端的录制效率并且使得主体音更加清晰。所述方法包括:将第一图像数据输入对象行为分析模型集进行行为分析,得到初始行为分析结果集合;对初始行为分析结果集合进行行为特征识别,得到至少一个目标行为分析结果,并构建图像串联标签;根据图像串联标签确定第二图像数据,并根据第二图像数据匹配待处理音频数据;对待处理音频数据进行背景音频故障分析,得到背景音频故障类型,并根据背景音频故障类型生成音频处理策略;根据音频处理策略对待处理音频数据进行背景音频调整,生成目标录制视频。频。频。

【技术实现步骤摘要】
直播录制的音频数据采集处理方法及相关装置


[0001]本专利技术涉及音频处理领域,尤其涉及一种直播录制的音频数据采集处理方法及相关装置。

技术介绍

[0002]随着直播技术的高速发展,直播录制的技术也随之成熟。把直播录制端的直播画面在网络上传输和存储。再通过内容分发网络进行大规模内容分发能够尽量避免跨区域网络传输带来的资源访问缓慢问题。
[0003]但是现有方案中,直播录制的过程存在音频噪音,这些音频噪音会严重影响用户的直播观看体验,因此,需要由人工进行噪声判断和噪声去除,即,现有方案的录制效率很低。

技术实现思路

[0004]本专利技术提供了一种直播录制的音频数据采集处理方法及相关装置,用于提高录制端的录制效率并且使得主体音更加清晰。
[0005]本专利技术第一方面提供了一种直播录制的音频数据采集处理方法,所述直播录制的音频数据采集处理方法包括:基于预置的直播录制端采集目标录制对象的原始录制数据,并对所述原始录制数据进行图像和音频分割,得到第一图像数据和第一音频数据;将所述第一图像数据输入预置的对象行为分析模型集,并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析,得到初始行为分析结果集合;对所述初始行为分析结果集合进行行为特征识别,得到至少一个目标行为分析结果,并构建所述至少一个目标行为分析结果对应的图像串联标签;根据所述图像串联标签确定对应的第二图像数据,并根据所述第二图像数据匹配待处理音频数据;对所述待处理音频数据进行背景音频故障分析,得到背景音频故障类型,并根据所述背景音频故障类型生成音频处理策略;调用预置的数字调音台,并根据所述音频处理策略对所述待处理音频数据进行背景音频调整,得到第二音频数据,并根据所述第二音频数据和所述第一图像数据生成目标录制视频。
[0006]结合第一方面,所述基于预置的直播录制端采集目标录制对象的原始录制数据,并对所述原始录制数据进行图像和音频分割,得到第一图像数据和第一音频数据,包括:基于预置的直播录制端采集目标录制对象的原始录制数据,并获取所述原始录制数据的时间戳数据;根据所述时间戳数据,将所述原始录制数据输入预置的视频图像提取网络进行视
频图像提取,得到第一图像数据;将所述原始录制数据输入预置的音频分割网络进行音频数据分割,得到初始音频数据,并根据所述时间戳数据对所述初始音频数据进行音频转码,得到第一音频数据。
[0007]结合第一方面,所述将所述第一图像数据输入预置的对象行为分析模型集,并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析,得到初始行为分析结果集合,包括:将所述第一图像数据输入预置的对象行为分析模型集,其中,所述对象行为分析模型集包括多个对象行为分析模型,所述多个对象行为分析模型分别用于对不同部位进行行为分析;分别通过所述多个对象行为分析模型对所述第一图像数据中的不同部位进行行为分析,得到每个对象行为分析模型的行为分析结果;对每个对象行为分析模型的行为分析结果进行编码存储,得到每个行为分析结果的编码值;根据每个行为分析结果的编码值构建初始行为分析结果集合。
[0008]结合第一方面,所述对所述初始行为分析结果集合进行行为特征识别,得到至少一个目标行为分析结果,并构建所述至少一个目标行为分析结果对应的图像串联标签,包括:对所述初始行为分析结果集合进行异常行为识别,得到至少一个目标行为分析结果;根据所述至少一个目标行为分析结果生成至少一个信息标签;对所述至少一个信息标签进行图像串联处理,得到所述至少一个目标行为分析结果对应的图像串联标签。
[0009]结合第一方面,所述根据所述图像串联标签确定对应的第二图像数据,并根据所述第二图像数据匹配待处理音频数据,包括:根据所述图像串联标签确定对应的第二图像数据;获取所述第二图像数据对应的音频段;对所述音频段进行音频数据匹配,得到所述第二图像数据对应的待处理音频数据。
[0010]结合第一方面,所述对所述待处理音频数据进行背景音频故障分析,得到背景音频故障类型,并根据所述背景音频故障类型生成音频处理策略,包括:将所述待处理音频数据输入预置的音频故障分类模型,其中,所述音频故障分类模型包括:第一层双向门限循环网络、第二层双向门限循环网络以及全连接网络;通过所述音频故障分类模型对所述待处理音频数据进行背景音频故障分析,得到背景音频故障类型;获取策略列表,并根据所述背景音频故障类型从所述策略列表查询所述背景音频故障类型对应的音频处理策略。
[0011]结合第一方面,所述调用预置的数字调音台,并根据所述音频处理策略对所述待处理音频数据进行背景音频调整,得到第二音频数据,并根据所述第二音频数据和所述第一图像数据生成目标录制视频,包括:
根据所述音频处理策略设置预置数字调音台的参数调整数值;根据所述参数调整数值,对所述待处理音频数据进行背景音频调整,得到第二音频数据;根据所述第二音频数据,对所述第一音频数据进行音频整合处理,得到音频整合处理后的音频数据;对所述音频整合处理后的音频数据和所述第一图像数据进行视频融合,生成目标录制视频。
[0012]本专利技术第二方面提供了一种直播录制的音频数据采集处理装置,所述直播录制的音频数据采集处理装置包括:采集模块,用于基于预置的直播录制端采集目标录制对象的原始录制数据,并对所述原始录制数据进行图像和音频分割,得到第一图像数据和第一音频数据;分析模块,用于将所述第一图像数据输入预置的对象行为分析模型集,并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析,得到初始行为分析结果集合;构建模块,用于对所述初始行为分析结果集合进行行为特征识别,得到至少一个目标行为分析结果,并构建所述至少一个目标行为分析结果对应的图像串联标签;匹配模块,用于根据所述图像串联标签确定对应的第二图像数据,并根据所述第二图像数据匹配待处理音频数据;处理模块,用于对所述待处理音频数据进行背景音频故障分析,得到背景音频故障类型,并根据所述背景音频故障类型生成音频处理策略;生成模块,用于调用预置的数字调音台,并根据所述音频处理策略对所述待处理音频数据进行背景音频调整,得到第二音频数据,并根据所述第二音频数据和所述第一图像数据生成目标录制视频。
[0013]本专利技术第三方面提供了一种直播录制的音频数据采集处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述直播录制的音频数据采集处理设备执行上述的直播录制的音频数据采集处理方法。
[0014]本专利技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的直播录制的音频数据采集处理方法。
[0015]本专利技术提供的技术方案中,将第一图像数据输入对象行为分析模型集进行行为分析,得到初始行为分析结果集合;对初始行为分析结果集合进行行为特征识别,得到至少一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种直播录制的音频数据采集处理方法,其特征在于,所述直播录制的音频数据采集处理方法包括:基于预置的直播录制端采集目标录制对象的原始录制数据,并对所述原始录制数据进行图像和音频分割,得到第一图像数据和第一音频数据;将所述第一图像数据输入预置的对象行为分析模型集,并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析,得到初始行为分析结果集合;对所述初始行为分析结果集合进行行为特征识别,得到至少一个目标行为分析结果,并构建所述至少一个目标行为分析结果对应的图像串联标签;根据所述图像串联标签确定对应的第二图像数据,并根据所述第二图像数据匹配待处理音频数据;对所述待处理音频数据进行背景音频故障分析,得到背景音频故障类型,并根据所述背景音频故障类型生成音频处理策略;调用预置的数字调音台,并根据所述音频处理策略对所述待处理音频数据进行背景音频调整,得到第二音频数据,并根据所述第二音频数据和所述第一图像数据生成目标录制视频。2.根据权利要求1所述的直播录制的音频数据采集处理方法,其特征在于,所述基于预置的直播录制端采集目标录制对象的原始录制数据,并对所述原始录制数据进行图像和音频分割,得到第一图像数据和第一音频数据,包括:基于预置的直播录制端采集目标录制对象的原始录制数据,并获取所述原始录制数据的时间戳数据;根据所述时间戳数据,将所述原始录制数据输入预置的视频图像提取网络进行视频图像提取,得到第一图像数据;将所述原始录制数据输入预置的音频分割网络进行音频数据分割,得到初始音频数据,并根据所述时间戳数据对所述初始音频数据进行音频转码,得到第一音频数据。3.根据权利要求1所述的直播录制的音频数据采集处理方法,其特征在于,所述将所述第一图像数据输入预置的对象行为分析模型集,并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析,得到初始行为分析结果集合,包括:将所述第一图像数据输入预置的对象行为分析模型集,其中,所述对象行为分析模型集包括多个对象行为分析模型,所述多个对象行为分析模型分别用于对不同部位进行行为分析;分别通过所述多个对象行为分析模型对所述第一图像数据中的不同部位进行行为分析,得到每个对象行为分析模型的行为分析结果;对每个对象行为分析模型的行为分析结果进行编码存储,得到每个行为分析结果的编码值;根据每个行为分析结果的编码值构建初始行为分析结果集合。4.根据权利要求1所述的直播录制的音频数据采集处理方法,其特征在于,所述对所述初始行为分析结果集合进行行为特征识别,得到至少一个目标行为分析结果,并构建所述
至少一个目标行为分析结果对应的图像串联标签,包括:对所述初始行为分析结果集合进行异常行为识别,得到至少一个目标行为分析结果;根据所述至少一个目标行为分析结果生成至少一个信息标签;对所述至少一个信息标签进行图像串联处理,得到所述至少一个目标行为分析结果对应的图像串联标签。5.根据权利要求1所述的直播录制的音频数据采集处理方法,其特征在于,所述根据所述图像串联标签确定对应的第二图像数据,并根据所述第二图像数据匹配待处理音频数据,包括:根据所述图像...

【专利技术属性】
技术研发人员:李庆余黄智
申请(专利权)人:深圳市声菲特科技技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1