视频处理方法、装置、设备和介质制造方法及图纸

技术编号：40066359 阅读：9 留言：0更新日期：2024-01-16 23:29

本申请涉及一种视频处理方法、装置、设备和介质，属于网络媒体领域，涉及人工智能技术。方法包括：获取视频，并从视频中提取出音频；在音频中，定位属于背景音乐类别的至少一个背景音频段，及属于人声类别的至少一个人声音频段；获取视频的主题标签，并确定每个背景音频段的子类别标签；在音频中，定位至少一个目标音频段，每个目标音频段包括至少一个完整的背景音频段和至少一个完整的人声音频段，所包括的背景音频段和人声音频段的并集是连续的，且包括的背景音频段的子类别标签，与视频的主题标签匹配；按照至少一个目标音频段，从视频截取至少一个视频段。采用本方法能够避免用于支持截取视频段的计算机硬件资源的浪费。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能技术，更涉及网络媒体领域，特别是涉及一种视频处理方法、装置、设备和介质。

技术介绍

1、随着网络媒体技术的发展，在很多场景中，需要从长段的视频中定位出符合用户需求的视频段。比如，在短视频创作平台中，很多网络主播会利用当前大热的影视剧进行短视频剪辑创作，比方说，网络主播可从影视剧中截取出精彩影视片段进行短视频剪辑创作。再比如，在影视剧制作后期，制作方会根据影视剧正片的集数，从每集影视剧中截取精彩影视片段，作为每集影视剧的精彩预告片段。

2、传统技术中，通常基于视频中的背景音乐直接从视频中截取视频段，然而，基于背景音乐直接从视频中截取出视频段的方式，截取获得的视频段通常会出现人声音频不完整、且不符合视频主题的情况，视频段截取准确率较低，从而导致用于支持截取所需视频段的计算机硬件资源的浪费。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够避免用于支持截取视频段的计算机硬件资源浪费的视频处理方法、装置、设备和介质。

2、第一方面，本申请提供了一种视频处理方法，所述方法包括：

3、获取视频，并从所述视频中提取出音频；

4、在所述音频中，定位属于背景音乐类别的至少一个背景音频段，及属于人声类别的至少一个人声音频段；

5、获取所述视频的主题标签，并确定每个背景音频段的子类别标签；

6、在所述音频中，定位至少一个目标音频段，每个目标音频段包括至少一个完整的所述背景音频段和至少一个完整的所述人声

7、按照所述至少一个目标音频段，从所述视频截取至少一个视频段。

8、第二方面，本申请提供了一种视频处理装置，所述装置包括：

9、获取模块，用于获取视频，并从所述视频中提取出音频；

10、定位模块，用于在所述音频中，定位属于背景音乐类别的至少一个背景音频段，及属于人声类别的至少一个人声音频段；

11、确定模块，用于获取所述视频的主题标签，并确定每个背景音频段的子类别标签；

12、所述定位模块还用于在所述音频中，定位至少一个目标音频段，每个目标音频段包括至少一个完整的所述背景音频段和至少一个完整的所述人声音频段，所包括的背景音频段和人声音频段的并集是连续的，且包括的背景音频段的子类别标签，与所述视频的主题标签匹配；

13、截取模块，用于按照所述至少一个目标音频段，从所述视频截取至少一个视频段。

14、在一个实施例中，所述定位模块还用于获取对所述音频进行分帧得到的多个时域音频帧；基于所述多个时域音频帧，确定所述多个时域音频帧分别所属的音频类别，所述音频类别是背景音乐类别或人声类别；在所述音频中，基于所述多个时域音频帧所属的音频类别，定位属于背景音乐类别的至少一个背景音频段，及属于人声类别的至少一个人声音频段。

15、在一个实施例中，所述定位模块还用于将所述多个时域音频帧转换到频域，获得多个音频频域信号；从所述多个时域音频帧提取时域特征，从所述多个音频频域信号提取频域特征，并将所述时域特征和所述频域特征融合，获得音频融合特征；基于所述音频融合特征，确定所述多个时域音频帧分别所属的音频类别。

16、在一个实施例中，所述定位模块还用于将所述多个时域音频帧按照预设的多个层次逐层提取特征，获得每个层次的时域特征；将所述多个音频频域信号按照所述多个层次逐层提取特征，获得每个层次的频域特征；针对每个层次，至少根据所针对层次的时域特征和频域特征进行特征融合，生成所针对层次的层融合特征，其中，在针对首层之后的层次生成层融合特征时，还根据所针对层次的前一层次的层融合特征进行特征融合；根据所述多个层次中最后一个层次的层融合特征，确定音频融合特征。

17、在一个实施例中，所述时域特征和所述频域特征的特征维度不同；所述定位模块还用于针对每个层次，按照所针对层次的频域特征的特征维度，对所针对层次的时域特征进行特征重建，获得所针对层次的重建的时域特征；当所针对层次是首层，将所针对层次的频域特征和重建的时域特征进行特征融合，获得所针对层次的层融合特征；当所针对层次是首层之后的层次，将所针对层次的频域特征、所针对层次的重建的时域特征、以及所针对层次的前一层次的层融合特征，进行特征融合，获得所针对层次的层融合特征。

18、在一个实施例中，所述层融合特征包括多个特征图；所述定位模块还用于将所述多个层次中最后一个层次的层融合特征中各所述特征图进行融合，获得融合特征图；将所述融合特征图进行降维，获得与重建前每个所述时域特征的特征维度相同的音频融合特征。

19、在一个实施例中，所述多个时域音频帧分别所属的音频类别，是通过预先训练完成的音频分类模型，预测所述多个时域音频帧分别属于每种音频类别的概率确定的；所述音频分类模型是通过模型训练步骤训练获得的，所述装置还包括：

20、训练模块，用于获取训练样本；所述训练样本包括样本音频，以及针对所述样本音频标注的所述样本音频所属的音频类别；将所述样本音频输入至待训练的音频分类模型，以通过所述待训练的音频分类模型对所述样本音频中各音频帧进行类别预测，获得所述样本音频中各音频帧分别属于每种音频类别的概率；根据所述样本音频中各音频帧分别属于每种音频类别的概率，确定所述样本音频分别属于每种音频类别的概率；根据所述样本音频分别属于每种音频类别的概率，以及针对所述样本音频标注的所述样本音频所属的音频类别，确定损失值；朝着使所述损失值减小的方向对所述待训练的音频分类模型进行训练。

21、在一个实施例中，所述训练模块还用于针对每个音频类别，通过多种预设函数，分别根据所述样本音频中各音频帧属于所针对音频类别的概率，确定所述样本音频属于所针对音频类别的多个候选概率；通过多种融合方式，分别将所述样本音频属于所针对音频类别的多个候选概率进行融合，获得所述样本音频属于所针对音频类别的多个融合概率；根据所述样本音频属于所针对音频类别的多个融合概率，确定所述样本音频属于所针对音频类别的概率。

22、在一个实施例中，所述确定模块还用于针对每个背景音频段，确定所针对背景音频段的背景音频特征；根据所述背景音频特征，确定所针对背景音频段分别属于预设的多个子类别标签的置信度；每个子类别标签用于表征背景音频段的一种音乐情绪；根据所针对背景音频段分别属于预设的多个子类别标签的置信度，确定所针对背景音频段的子类别标签。

23、在一个实施例中，所述目标音频段所包括的每个背景音频段，与所包括的至少一个人声音频段存在交集。

24、在一个实施例中，针对所述目标音频段中的每个背景音频段，与所针对背景音频段存在交集的至少一个人声音频段占所针对背景音频段的时间比例，超过预设比值。

25、在一个实施例中，所述视频为影视剧视频；所述人声类别是人声台词类别；所述人声音频段是本文档来自技高网...

【技术保护点】

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述音频中，定位属于背景音乐类别的至少一个背景音频段，及属于人声类别的至少一个人声音频段，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个时域音频帧，确定所述多个时域音频帧分别所属的音频类别，包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述多个时域音频帧提取时域特征，从所述多个音频频域信号提取频域特征，并将所述时域特征和所述频域特征融合，获得音频融合特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述时域特征和所述频域特征的特征维度不同；所述针对每个层次，至少根据所针对层次的时域特征和频域特征进行特征融合，生成所针对层次的层融合特征，其中，在针对首层之后的层次生成层融合特征时，还根据所针对层次的前一层次的层融合特征进行特征融合，包括：

6.根据权利要求5所述的方法，其特征在于，所述层融合特征包括多个特征图；所述根据所述多个层次中最后一个层次的层融合特征，确定音频融合特征，包括：

<p>7.根据权利要求2所述的方法，其特征在于，所述多个时域音频帧分别所属的音频类别，是通过预先训练完成的音频分类模型，预测所述多个时域音频帧分别属于每种音频类别的概率确定的；所述音频分类模型是通过模型训练步骤训练获得的，所述模型训练步骤，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述样本音频中各音频帧分别属于每种音频类别的概率，确定所述样本音频分别属于每种音频类别的概率，包括：

9.根据权利要求1所述的方法，其特征在于，所述确定每个背景音频段的子类别标签，包括：

10.根据权利要求1至9任一项所述的方法，其特征在于，所述目标音频段所包括的每个背景音频段，与所包括的至少一个人声音频段存在交集。

11.根据权利要求10所述的方法，其特征在于，针对所述目标音频段中的每个背景音频段，与所针对背景音频段存在交集的至少一个人声音频段占所针对背景音频段的时间比例，超过预设比值。

12.根据权利要求1至9中任一项所述的方法，其特征在于，所述视频为影视剧视频；所述人声类别是人声台词类别；所述人声音频段是人声台词音频段；所述主题标签是所述影视剧视频的题材主题标签；所述视频段是所述影视剧视频的剪辑片段。

13.一种视频处理装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种视频处理方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个时域音频帧，确定所述多个时域音频帧分别所属的音频类别，包括：

7.根据权利要求2所述的方法，其特征在于，所述多个时域音频帧分别所属的音频类别，是通过预先训练完成的音频分类模型，预测所述多个时域音频帧分别属于每种音频类别的概率确定的；所述音频分类模型是通过模型训练步骤训练获得的，所述模型训练步骤，包括：

8.根据权利要求7所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人