一种基于音视频分离的智能拆条方法技术

技术编号：25407351 阅读：47 留言：0更新日期：2020-08-25 23:10

本发明专利技术公开了一种基于音视频分离的智能拆条方法，具体步骤为：从输入视频中，分离出音频和视频流；使用对象跟踪技术对视频进行场景切分，粗分出场景片段；对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段；或者根据音频的节奏、声纹等信息进行场景片段细分；利用深度学习技术，基于视频理解，对视频片段打标签；最后，返回带有标签的视频拆条片段；本发明专利技术方法有效提高了视频拆条的效率及准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音视频分离的智能拆条方法
本专利技术涉及媒资管理
，具体涉及一种基于音视频分离的智能拆条方法。
技术介绍
在移动互联网、大数据、AI智能的技术驱动下，短视频正以其自身优势，打破内容行业的传统思路。随着5G技术的发展，平台运营成本降低，移动端网速大幅提升，短视频井喷的流量和突出的营销效应，使得用户的社交活跃性和使用黏性大大提升，越来越符合移动用户时间碎片化的体验。但同时，如何根据不同性质的内容信息，将长视频精准拆条成多段独立的短视频，成为一个亟待解决的问题。传统的长视频拆条方式，需要投入大量的人工进行手动预览拆分视频，耗时耗力，无法在短时间内批量地深度挖掘同质同类内容并验证其重复性，对精准的用户传播造成了很大阻碍。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足，提供一种基于音视频分离的智能拆条方法。为实现上述目的，本专利技术采用的技术方案是：它包含如下步骤：一、从输入视频中，分离出音频和视频流，并根据时间戳来同步音频与视频流；二、使用对象跟踪技术对视频进行场景切分，粗分出场景片段；三、对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段：对于可识别出文本的场景片段，通过文本分类方式，分离文字段落，根据段落细分每个场景片段；对于不能识别出文本的场景片段，执行步骤四；四、根据音频的节奏、声纹等信息，进行场景片段细分；五、利用深度学习技术，基于视频理解，对视频片段打标签；六、返回带有标签的视频拆条片段。r>进一步地，步骤四中根据音频的节奏、声纹等信息，进行场景片段细分的具体方法为：对于不能识别出文本的场景片段，每隔N秒钟取一个分段，使用GRU(GatedRecurrentUnit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征，将相邻特征误差在R范围内的分段作为连续片段，从场景片段中拆分出来。进一步地，步骤五中利用深度学习技术，基于视频理解，对视频片段打标签的具体方法为：对步骤三与步骤四中从场景片段细分出的视频片段，使用深度3D卷积神经网络提取片段的时空信息，并进行场景识别、动作捕捉、情感分析等，提取出场景信息、对象信息、人物表情、运动信息等，作为视频片段的标签信息。采用上述方案后，本专利技术有益效果为：本专利技术所述的一种基于音视频分离的智能拆条方法，根据不同性质的内容信息，将长视频精准拆条成多段独立的短视频，并能在短时间内批量地深度挖掘同质同类内容并验证其重复性，视频拆条的效率及准确率高。具体实施方式下面对本专利技术作进一步的说明。本具体实施方式采用的技术方案是：它包含如下步骤：一、从输入视频中，分离出音频和视频流，并根据时间戳来同步音频与视频流；二、使用对象跟踪技术对视频进行场景切分，粗分出场景片段；三、对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段：对于可识别出文本的场景片段，通过文本分类方式，分离文字段落，根据段落细分每个场景片段；对于不能识别出文本的场景片段，执行步骤四；四、根据音频的节奏、声纹等信息，进行场景片段细分：对于不能识别出文本的场景片段，每隔N秒钟取一个分段，使用GRU(GatedRecurrentUnit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征，将相邻特征误差在R范围内的分段作为连续片段，从场景片段中拆分出来。五、利用深度学习技术，基于视频理解，对视频片段打标签：对步骤三与步骤四中从场景片段细分出的视频片段，使用深度3D卷积神经网络提取片段的时空信息，并进行场景识别、动作捕捉、情感分析等，提取出场景信息、对象信息、人物表情、运动信息等，作为视频片段的标签信息。六、返回带有标签的视频拆条片段。以上所述，仅用以说明本专利技术的技术方案而非限制，本领域普通技术人员对本专利技术的技术方案所做的其它修改或者等同替换，只要不脱离本专利技术技术方案的精神和范围，均应涵盖在本专利技术的权利要求范围当中。本文档来自技高网...

【技术保护点】
1.一种基于音视频分离的智能拆条方法，其特征在于它包含如下步骤：/n一、从输入视频中，分离出音频和视频流，并根据时间戳来同步音频与视频流；/n二、使用对象跟踪技术对视频进行场景切分，粗分出场景片段；/n三、对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段：对于可识别出文本的场景片段，通过文本分类方式，分离文字段落，根据段落细分每个场景片段；对于不能识别出文本的场景片段，执行步骤四；/n四、根据音频的节奏、声纹等信息，进行场景片段细分；/n五、利用深度学习技术，基于视频理解，对视频片段打标签；/n六、返回带有标签的视频拆条片段。/n

【技术特征摘要】
1.一种基于音视频分离的智能拆条方法，其特征在于它包含如下步骤：
一、从输入视频中，分离出音频和视频流，并根据时间戳来同步音频与视频流；
二、使用对象跟踪技术对视频进行场景切分，粗分出场景片段；
三、对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段：对于可识别出文本的场景片段，通过文本分类方式，分离文字段落，根据段落细分每个场景片段；对于不能识别出文本的场景片段，执行步骤四；
四、根据音频的节奏、声纹等信息，进行场景片段细分；
五、利用深度学习技术，基于视频理解，对视频片段打标签；
六、返回带有标签的视频拆条片段。

2.根据权利要求1所述的一种基于音视频分离的智能拆条方法，...

【专利技术属性】
技术研发人员：康洪文，
申请(专利权)人：杭州慧川智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人