System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于人工智能的音视频合成处理方法技术_技高网
当前位置: 首页 > 专利查询>周进专利>正文

一种基于人工智能的音视频合成处理方法技术

技术编号:43816981 阅读:19 留言:0更新日期:2024-12-27 13:30
本发明专利技术涉及数据处理技术领域,具体为一种基于人工智能的音视频合成处理方法,本发明专利技术通过分析音视频的视频音频数据的音频变化特征并获取音频情绪特征标签、音频背景特征标签和音频内容特征标签,依据相似度计算结果获取音视频中相同音频编辑素材的分割序列时间戳,通过该时间戳划分视频图像数据并分析评估视频内容标签对音频情绪特征标签、音频背景特征标签和音频内容特征标签,生成视频内容和音频内容一致的第一主题标签;依据第一主题标签计算背景音场景相关度;结合分割间隔时间时长和相邻的音频变化特征进行背景音的过渡调整;通过该方法能对初步编辑的音视频的背景音实现更进一步的优化。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体为一种基于人工智能的音视频合成处理方法


技术介绍

1、音视频,即音频和视频的统称,目前用户常使用的短视频和长视频等均属于音视频;音视频通过视觉数据和听觉数据,给予用户多方面的信息感受,通过大量的立体信息以提升用户的沉浸感。

2、随着音视频编辑技术的进步,大量的自媒体行业通过现有的编辑手段对原始音视频进行进一步地背景音加工,使得编辑后的音视频无论在娱乐、工作或教育等领域,都呈现出比未编辑前的音视频有着更加丰富的表现。

3、从技术层面上,由于音视频的背景音加工需要很多专业的编辑软件,相关工作者就需要基于大量的技术经验和工作经验才能呈现出较好的音视频加工效果,这也导致了相关工作者编辑后的音视频呈现出参差不齐的结果;为了降低相关工作者的技术门槛,cn110958386b提出了一种视频合成方法、装置、电子设备及计算机可读存储介质,通过识别选取视频合成的目标对象特征,自动生成对应的音乐信息候选,用户在选定音乐后可以将音乐与视频进行融合以达到简化视频合成步骤,减少相关工作者的操作;cn113329258b通过自动提取歌曲曲风等特征,自动选取对应的场景将画面与歌曲能够更好的融合,以提升mtv的音视频效果,减少相关工作者的编辑工作量,提升效率;cn116320611b提出了一种音视频的合成方法及系统,通过提取视频中配音的特征获取该视频画面想表达的情绪特征,对需要合成的音频进行对应情绪特征的优化,以降低目前相关工作者的创作门槛,提升音视频效果。

4、然而在实际工作中,背景音在不同画面间的效果过渡,对于音视频效果也具有一定的影响;而目前的技术问题在于,仅从背景音素材的添加进行优化,缺少背景音在音视频不同画面间的效果过渡调整优化,对背景音的优化内容较为单一。

5、为此,本专利技术提出一种基于人工智能的音视频合成处理方法。


技术实现思路

1、本专利技术的目的在于提供一种基于人工智能的音视频合成处理方法,通过分析音视频的视频音频数据的音频变化特征,依据变化特征获取音频情绪特征标签、音频背景特征标签和音频内容特征标签,依据相似度计算结果获取音视频中相同音频编辑素材的分割序列时间戳,通过该时间戳划分视频图像数据并分析视频内容标签对音频情绪特征标签、音频背景特征标签和音频内容特征标签进行评估,生成视频内容和音频内容一致的第一主题标签;依据第一主题标签计算背景音场景相关度,若小于背景音场景相关度阈值;依据分割间隔时间时长和相邻的音频变化特征进行背景音的过渡调整;通过该方法能对已编辑的音视频的背景音实现背景音过渡调整,进一步降低相关工作者的技术门槛,对整个音视频进行更进一步地优化。

2、为实现上述目的,本专利技术提供如下技术方案:

3、获取目标音视频的视频图像数据和视频音频数据,提取所述视频音频数据的音频变化特征;依据所述音频变化特征获取音频情绪特征标签、音频背景特征标签和音频内容特征标签;

4、所述视频图像数据为加入图像编辑效果的视频图像数据,所述图像编辑效果包括文字素材、文字效果素材和图像效果素材;所述视频音频数据为加入音频编辑效果的视频音频数据;所述音频编辑效果包括未调整背景音乐素材、未调整背景声音效果素材和未调整背景声音素材;

5、进一步地,所述音频变化特征、所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签通过音视频特征音频提取分类模型获取;

6、所述音视频特征音频提取模型包括音视频音频特征处理单元、音视频音频输入单元、音视频音频特征提取单元、音视频音频特征输出单元和音视频音频标签分类输出单元;

7、所述音视频音频特征处理单元将所述视频音频数据和音频编辑效果进行分离,生成多个音视频音频预输入数据;所述音视频音频输入单元将多个所述音视频音频预输入数据进行等量分割,获取音视频音频输入数据集;

8、所述等量分割为基于多个所述音视频音频预输入数据各自的振幅的最大值和频率的均值进行分割,具体分割长度为:

9、

10、其中,length为所述分割长度,max()为最大值,为第m条数据的振幅,为第m条数据的频率;

11、所述音视频音频特征提取单元提取所述音视频音频输入数据集的变化特征,生成音视频音频变化特征数据,所述音视频音频特征输出单元对所述音视频音频变化特征数据进行分类并输出所述音频变化特征;

12、进一步地,将等量分割后的所述音视频音频输入数据集中的每条数据进行相同时间步长的划分,并将划分后的所述音视频音频输入数据集输入到所述音视频音频特征提取单元中;

13、所述音视频音频特征提取单元采用卷积神经网络、transformer编码器和膨胀卷积获取;具体表示如下:

14、

15、

16、

17、output=fea(output1,output2);

18、其中,output为输出,input为输入,output1为所述卷积神经网络和所述transformer编码器的输出,encodetransform为所述transformer编码器,liner为融合线性变换,cnn为所述卷积神经网络,input1,input2,inputn-1,inputn为划分后的输入数据,θn为划分后的数据数量,tcn1和tcn2为所述膨胀卷积,dropout为dropout层,relu为激活层,nor为归一化层,fea()为特征融合;

19、所述分类为通过softmax分类输出所述音频变化特征;

20、所述音视频音频标签分类输出单元对所述音视频音频变化特征数据进行进一步特征分类计算,输出所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签;

21、所述音视频音频标签分类输出单元采用特征聚类获取所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签,特征聚类采用k-means聚类方法;

22、所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签则是依据所述音视频音频变化特征数据与标准库中的音视频音频对照特征数据进行相似度计算,获取相似度最高的作为对应的标签数据;

23、依据所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签的音视频音频相似度分割所述视频音频数据,生成音频分割序列和分割序列时间戳;

24、进一步地,将所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签按时间戳顺序进行排序,并选取固定数量为ni个的所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签计算所述音视频音频相似度:

25、

26、其中,δn为所述音视频音频相似度,βdet为所述音频内容特征标签的相同连续性权重,βemt为所述音频情绪特征标签的相同连续性权重,βback为所述音频背景特征标签的相同连续性权重,αdet、αemt和αback为音频相似度权重,所述音本文档来自技高网...

【技术保护点】

1.一种基于人工智能的音视频合成处理方法,其特征在于,包括:

2.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述视频图像数据为加入图像编辑效果的视频图像数据,所述图像编辑效果包括文字素材、文字效果素材和图像效果素材;所述视频音频数据为加入音频编辑效果的视频音频数据;所述音频编辑效果包括未调整背景音乐素材、未调整背景声音效果素材和未调整背景声音素材。

3.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述音频变化特征、所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签通过音视频特征音频提取分类模型获取,所述音视频特征音频提取分类模型包括:

4.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签的音视频音频相似度计算为将所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签按时间戳顺序进行排序,并选取固定数量为Ni个的所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签计算所述音视频音频相似度。

5.根据权利要求4所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述音视频音频相似度计算包括:

6.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,评估生成所述第一主题标签的计算包括:

7.根据权利要求6所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述第一主题标签生成包括:

8.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,相邻音频分割序列的所述第一主题标签的所述背景音场景相关度的计算包括:

9.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,依据所述分割间隔时间时长和相邻的所述音频变化特征进行背景音的过渡调整包括:

10.根据权利要求9所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述背景音过渡区间计算包括:

...

【技术特征摘要】

1.一种基于人工智能的音视频合成处理方法,其特征在于,包括:

2.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述视频图像数据为加入图像编辑效果的视频图像数据,所述图像编辑效果包括文字素材、文字效果素材和图像效果素材;所述视频音频数据为加入音频编辑效果的视频音频数据;所述音频编辑效果包括未调整背景音乐素材、未调整背景声音效果素材和未调整背景声音素材。

3.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述音频变化特征、所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签通过音视频特征音频提取分类模型获取,所述音视频特征音频提取分类模型包括:

4.根据权利要求1所述的一种基于人工智能的音视频合成处理方法,其特征在于,所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签的音视频音频相似度计算为将所述音频情绪特征标签、所述音频背景特征标签和所述音频内容特征标签按时间戳顺序进行排序,并选取...

【专利技术属性】
技术研发人员:周进吴章萍汪瑞
申请(专利权)人:周进
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1