一种音频处理方法、装置及计算机设备、存储介质制造方法及图纸

技术编号:38422864 阅读:7 留言:0更新日期:2023-08-07 11:22
本申请实施例提供一种音频处理方法、装置及计算机设备、存储介质。该音频处理方法涉及人工智能技术领域的音频处理技术,该音频处理方法包括:获取待处理的音频;对音频的每个音频片段进行特征分析,得到每个音频片段的特征信息;基于音频中的各个音频片段的特征信息,对每个音频片段进行拼接预测,得到每个音频片段的拼接预测结果;拼接预测结果用于指示相应音频片段中音频拼接点的包含情况;每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的;根据音频中的各个音频片段的拼接预测结果,对音频进行音频业务处理。采用本申请实施例,可以较为准确地对音频进行音频拼接点预测。预测。预测。

【技术实现步骤摘要】
一种音频处理方法、装置及计算机设备、存储介质


[0001]本申请涉及计算机
,尤其涉及一种音频处理方法、装置及计算机设备、存储介质。

技术介绍

[0002]目前,许多的音频都是由多个拼接音频拼接而成的组合音频,例如,当一些视频(例如,短视频、小视频、以及影视视频,等等)的视频内容中包括多个视频场景时,可以通过为每个视频场景搭配不同拼接音频的方式,提升视频的播放效果,从而,这些视频的背景音频可以是由多个拼接音频拼接而成的组合音频。
[0003]从技术角度分析,音频中是否包含不同拼接音频之间的音频拼接点,是用来判断音频是否为组合音频的手段,如果音频中包含音频拼接点,那么可以说明音频为组合音频,如果音频中不包含音频拼接点,那么可以说明音频不是组合音频。因此,如何对音频进行音频拼接点预测,成为当前的研究热点。

技术实现思路

[0004]本申请实施例提供了一种音频处理方法、装置及计算机设备、存储介质,可以较为准确地对音频进行音频拼接点预测。
[0005]一方面,本申请实施例提供了一种音频处理方法,该音频处理方法包括:获取待处理的音频,音频包括对音频划分得到的多个音频片段;对音频的每个音频片段进行特征分析,得到每个音频片段的特征信息;基于音频中的各个音频片段的特征信息,对每个音频片段进行拼接预测,得到每个音频片段的拼接预测结果;拼接预测结果用于指示相应音频片段中音频拼接点的包含情况;每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的;根据音频中的各个音频片段的拼接预测结果,对音频进行音频业务处理。
[0006]相应地,本申请实施例提供了一种音频处理装置,该音频处理装置包括:获取单元,用于获取待处理的音频,音频包括对音频划分得到的多个音频片段;处理单元,用于对音频的每个音频片段进行特征分析,得到每个音频片段的特征信息;处理单元,还用于基于音频中的各个音频片段的特征信息,对每个音频片段进行拼接预测,得到每个音频片段的拼接预测结果;拼接预测结果用于指示相应音频片段中音频拼接点的包含情况;每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的;处理单元,还用于根据音频中的各个音频片段的拼接预测结果,对音频进行音频业务处理。
[0007]在一种实现方式中,处理单元,用于根据音频中的各个音频片段的拼接预测结果,
对音频进行音频业务处理时,具体用于执行如下步骤:若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点,则根据音频拼接点对音频进行裁剪处理,得到多个拼接音频;在音频库中查询每个拼接音频所属的源音频;确定每个拼接音频在其所属的源音频上的时序位置;任一个拼接音频在其所属的源音频上的时序位置包括:其所属的源音频上的开始时间点和其所属的源音频上的结束时间点;基于每个拼接音频在其所属的源音频上的时序位置,对每个拼接音频进行音频业务处理。
[0008]在一种实现方式中,多个拼接音频中的任一个拼接音频表示为目标拼接音频,音频库中的任一个源音频表示为目标源音频;处理单元,用于在音频库中查询目标拼接音频所属的源音频时,具体用于执行如下步骤:获取目标拼接音频的特征序列;目标拼接音频的特征序列包括目标拼接音频中的各个音频片段的特征信息;获取目标源音频的特征序列;目标源音频的特征序列包括目标源音频中的各个音频片段的特征信息;在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配;若目标源音频的特征序列中存在与目标拼接音频的特征序列相匹配的特征子序列,则确定目标源音频是目标拼接音频所属的源音频。
[0009]在一种实现方式中,处理单元,用于在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配时,具体用于执行如下步骤:当滑动窗口在目标源音频的特征序列中滑动至当前滑动位置时,获取滑动窗口在当前滑动位置所包含的窗口特征子序列;滑动窗口在目标源音频的特征序列中以一个特征信息的长度作为滑动步长进行滑动,滑动窗口的窗口长度与目标拼接音频的特征序列长度相同;若窗口特征子序列与目标拼接音频的特征序列之间的差异信息小于差异阈值,则确定窗口特征子序列是目标源音频的特征序列中与目标拼接音频的特征序列相匹配的特征子序列;以及,在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗匹配,直至滑动窗口滑动至目标源音频的特征序列终点;若窗口特征子序列与目标拼接音频的特征序列之间的差异信息大于或等于差异阈值,则在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗匹配,直至滑动窗口滑动至目标源音频的特征序列终点。
[0010]在一种实现方式中,每个拼接音频和音频库中的每个源音频均按照目标时长进行音频片段的划分;目标拼接音频所属的源音频的特征序列中,与目标拼接音频的特征序列相匹配的特征子序列表示为目标特征子序列;处理单元,用于确定目标拼接音频在其所属的源音频上的时序位置时,具体用于执行如下步骤:获取目标特征子序列中的第一特征信息,在目标音频片段所属的源音频的特征序列中的第一排列序号,第一特征信息是目标特征子序列中时序位于首位的特征信息;以及,获取目标特征子序列中的第二特征信息,在目标拼接音频所属的源音频的特征序列中的第
二排列序号,第二特征信息是目标特征子序列中时序位于末位的特征信息;将第一排列序号与目标时长的乘积,确定为目标拼接音频在其所属的源音频上的开始时间点;将第二排列序号与目标时长的乘积,确定为目标拼接音频在其所属的源音频上的结束时间点。
[0011]在一种实现方式中,目标拼接音频所属的源音频的特征序列中,存在与目标拼接音频的特征序列相匹配的多个特征子序列;处理单元,用于确定目标拼接音频在其所属的源音频上的时序位置时,具体用于执行如下步骤:在多个相匹配的特征子序列中,确定与目标拼接音频的特征序列之间的差异信息最小的参考特征子序列;根据参考特征子序列在目标拼接音频所属的源音频的特征序列中的排列位置,确定目标拼接音频在其所属的源音频上的时序位置。
[0012]在一种实现方式中,目标拼接音频的特征序列是由特征分析网络对目标拼接音频进行特征分析得到的;特征分析网络的训练过程,包括:获取第一样本数据,第一样本数据包括多个样本音频,每个样本音频包括多个裁剪音频;从第一样本数据中获取第m个样本音频中的第i个裁剪音频和第j个裁剪音频,以及,从第一样本数据中获取第n个样本音频中的第k个裁剪音频;m、n、i、j和k均为正整数,且m不等于n、i不等于j;调用特征分析网络对第i个裁剪音频进行特征分析,得到第i个裁剪音频的特征序列;以及,调用特征分析网络对第j个裁剪音频进行特征分析,得到第j个裁剪音频的特征序列;以及,调用特征分析网络对第k个裁剪音频进行特征分析,得到第k个裁剪音频的特征序列;根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息,以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息,对特征分析网络进行训练。
[0013]在一种实现方式中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取待处理的音频,所述音频包括对所述音频划分得到的多个音频片段;对所述音频的每个音频片段进行特征分析,得到每个音频片段的特征信息;基于所述音频中的各个音频片段的特征信息,对每个音频片段进行拼接预测,得到每个音频片段的拼接预测结果;所述拼接预测结果用于指示相应音频片段中音频拼接点的包含情况;每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的;根据所述音频中的各个音频片段的拼接预测结果,对所述音频进行音频业务处理。2.如权利要求1所述的方法,其特征在于,所述根据所述音频中的各个音频片段的拼接预测结果,对所述音频进行音频业务处理,包括:若根据所述音频中的各个音频片段的拼接预测结果确定所述音频包含音频拼接点,则根据所述音频拼接点对所述音频进行裁剪处理,得到多个拼接音频;在音频库中查询每个拼接音频所属的源音频;确定每个拼接音频在其所属的源音频上的时序位置;任一个拼接音频在其所属的源音频上的时序位置包括:其所属的源音频上的开始时间点和其所属的源音频上的结束时间点;基于每个拼接音频在其所属的源音频上的时序位置,对每个拼接音频进行音频业务处理。3.如权利要求2所述的方法,其特征在于,所述多个拼接音频中的任一个拼接音频表示为目标拼接音频,所述音频库中的任一个源音频表示为目标源音频;在所述音频库中查询所述目标拼接音频所属的源音频的过程,包括:获取所述目标拼接音频的特征序列;所述目标拼接音频的特征序列包括所述目标拼接音频中的各个音频片段的特征信息;获取所述目标源音频的特征序列;所述目标源音频的特征序列包括所述目标源音频中的各个音频片段的特征信息;在所述目标拼接音频的特征序列与所述目标源音频的特征序列之间进行滑窗匹配;若所述目标源音频的特征序列中存在与所述目标拼接音频的特征序列相匹配的特征子序列,则确定所述目标源音频是所述目标拼接音频所属的源音频。4.如权利要求3所述的方法,其特征在于,所述在所述目标拼接音频的特征序列与所述目标源音频的特征序列之间进行滑窗匹配,包括:当滑动窗口在所述目标源音频的特征序列中滑动至当前滑动位置时,获取所述滑动窗口在所述当前滑动位置所包含的窗口特征子序列;所述滑动窗口在所述目标源音频的特征序列中以一个特征信息的长度作为滑动步长进行滑动,所述滑动窗口的窗口长度与所述目标拼接音频的特征序列长度相同;若所述窗口特征子序列与所述目标拼接音频的特征序列之间的差异信息小于差异阈值,则确定所述窗口特征子序列是所述目标源音频的特征序列中与所述目标拼接音频的特征序列相匹配的特征子序列;以及,在所述目标源音频的特征序列中继续对所述滑动窗口进行滑动以进行后续的滑窗匹配,直至所述滑动窗口滑动至所述目标源音频的特征序列终点;
若所述窗口特征子序列与所述目标拼接音频的特征序列之间的差异信息大于或等于差异阈值,则在所述目标源音频的特征序列中继续对所述滑动窗口进行滑动以进行后续的滑窗匹配,直至所述滑动窗口滑动至所述目标源音频的特征序列终点。5.如权利要求3所述的方法,其特征在于,每个拼接音频和所述音频库中的每个源音频均按照目标时长进行音频片段的划分;所述目标拼接音频所属的源音频的特征序列中,与所述目标拼接音频的特征序列相匹配的特征子序列表示为目标特征子序列;确定所述目标拼接音频在其所属的源音频上的时序位置的过程,包括:获取所述目标特征子序列中的第一特征信息,在所述目标拼接音频所属的源音频的特征序列中的第一排列序号,所述第一特征信息是所述目标特征子序列中时序位于首位的特征信息;以及,获取所述目标特征子序列中的第二特征信息,在所述目标拼接音频所属的源音频的特征序列中的第二排列序号,所述第二特征信息是所述目标特征子序列中时序位于末位的特征信息;将所述第一排列序号与所述目标时长的乘积,确定为所述目标拼接音频在其所属的源音频上的开始时间点;将所述第二排列序号与所述目标时长的乘积,确定为所述目标拼接音频在其所属的源音频上的结束时间点。6.如权利要求3所述的方法,其特征在于,所述目标拼接音频所属的源音频的特征序列中,存在与所述目标拼接音频的特征序列相匹配的多个特征子序列;确定所述目标拼接音频在其所属的源音频上的时序位置的过程,包括:在所述多个相匹配的特征子序列中,确定与所述目标拼接音频的特征序列之间的差异信息最小的参考特征子序列;根据所述参考特征子序列在所述目标拼接音频所属的源音频的特征序列中的排列位置,确定所述目标拼接音频在其所属的源音频上的时序位置。7.如权利要求3所述的方法,其特征在于,所述目标拼接音频的特征序列是由特征分析网络对所述目标拼接音频进行特征分析得到的;所述特征分析网络的训练过程,包括:获取第一样本数据,所述第一样本数据包括多个样本音频,每个样本音频包括多个裁剪音频;从所述第一样本数据中获取第m个样本音频中的第i个裁剪音频和第j个裁剪音频,以及,从所述第一样本数据中获取第n个样本音频中的第k个裁剪音频;m、n、i、j和k均为正整数,且m不等于n、i不等于j;调用所述特征分析网络对所述第i个裁剪音频进行特征分析,得到所述第i个裁剪音频的特征序列;以及,调用所述特征分析网络对所述第j个裁剪音频进行特征分析,得到所述第j个裁剪音频的特征序列;以及,调用所述特征分析网络对所述第k个裁剪音频进行特征分析,得到所述第k个裁剪音频的特征序列;根据所述第j个裁剪音频的特征序列与所述第i个裁剪音频的特征序列之间的第一差异信息,以及所述第j个裁剪音频的特征序列与所述第k个裁剪音频的特征序列之间的第二差异信息,对所述特征分析网络进行训练。8.如权利要求7所述的方法,其特征在于,所述根据所述第j个裁剪音频的特征序列与所述第i个裁剪音频的特征序列之间的第一差异信息,以及所述第j个裁剪音频的特征序列
与所述第k个裁剪音频的特征序列之间的第二差异信息,对所述特征分析网络进行训练,包括:根据所述第一差异信息和所述第二差异信息,构建所述特征分析网络的损失信息;按照减小所述特征分析网络的损失...

【专利技术属性】
技术研发人员:李廷天肖鑫雨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1