一种视频内容结构化方法、装置、终端设备及介质制造方法及图纸

技术编号：26607411 阅读：119 留言：0更新日期：2020-12-04 21:32

本申请适用于视频处理技术领域，提供了一种视频内容结构化方法、装置、终端设备及介质，所述方法包括：获取目标视频的视觉通道信息，基于所述视觉通道信息将所述目标视频划分为多个场景单元，所述多个场景单元包括多个场景边界；将所述目标视频的语音转换为语音文本，并将所述语音文本分割为多个文本块；基于所述多个文本块，将所述目标视频划分为多个语音单元，所述多个语音单元包括多个语音边界；根据所述多个场景边界和所述多个语音边界，确定所述目标视频的视频主题边界；根据所述视频主题边界，将所述目标视频划分为多个主题单元。通过上述方法，能够提高视频内容结构化的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频内容结构化方法、装置、终端设备及介质
本申请属于视频处理
，尤其涉及一种视频内容结构化方法、装置、终端设备及介质。
技术介绍
视频内容结构化是指将视频文件层次化分解成多个语义子单元并建立子单元间关联关系的过程，其目标是将复杂抽象的视频数据转换成计算机容易处理的格式，从而便于进一步提取、分析视频内容。传统的视频内容结构化方法，是从视频的视觉线索出发，将视频划分为各个场景。但是由于视频种类过于丰富，某些视频场景过于单一或者过于丰富，所以仅利用视觉线索将视频分为不同的场景单元，可能会造成很大误差。
技术实现思路
本申请实施例提供了一种视频内容结构化方法、装置、终端设备及介质，可以提高视频内容结构化的准确性。第一方面，本申请实施例提供了一种视频内容结构化方法，包括：获取目标视频的视觉通道信息，基于所述视觉通道信息将所述目标视频划分为多个场景单元，所述多个场景单元包括多个场景边界；将所述目标视频的语音转换为语音文本，并将所述语音文本分割为多个文本块；基于所述多个...

【技术保护点】
1.一种视频内容结构化方法，其特征在于，包括：/n获取目标视频的视觉通道信息，基于所述视觉通道信息将所述目标视频划分为多个场景单元，所述多个场景单元包括多个场景边界；/n将所述目标视频的语音转换为语音文本，并将所述语音文本分割为多个文本块；/n基于所述多个文本块，将所述目标视频划分为多个语音单元，所述多个语音单元包括多个语音边界；/n根据所述多个场景边界和所述多个语音边界，确定所述目标视频的视频主题边界；/n根据所述视频主题边界，将所述目标视频划分为多个主题单元。/n

【技术特征摘要】
1.一种视频内容结构化方法，其特征在于，包括：
获取目标视频的视觉通道信息，基于所述视觉通道信息将所述目标视频划分为多个场景单元，所述多个场景单元包括多个场景边界；
将所述目标视频的语音转换为语音文本，并将所述语音文本分割为多个文本块；
基于所述多个文本块，将所述目标视频划分为多个语音单元，所述多个语音单元包括多个语音边界；
根据所述多个场景边界和所述多个语音边界，确定所述目标视频的视频主题边界；
根据所述视频主题边界，将所述目标视频划分为多个主题单元。

2.如权利要求1所述的方法，其特征在于，所述基于所述多个文本块，将所述目标视频划分为多个语音单元，包括：
分别计算每个文本块的上下文关联度；
根据所述上下文关联度，分别计算所述每个文本块的深度分数；
根据所述每个文本块的深度分数，将所述目标视频划分为多个语音单元，所述语音单元的数量等于所述场景边界的数量的预设倍数。

3.如权利要求2所述的方法，其特征在于，所述分别计算每个文本块的上下文关联度，包括：
分别提取所述每个文本块的文本特征；
基于所述文本特征，采用如下公式计算所述每个文本块的上下文关联度：

其中，c表示所述每个文本块，p表示与所述每个文本块相邻的前一文本块，f表示与所述每个文本块相邻的后一文本块，wt,x表示x文本块的文本特征的第t维度的值，x=c、p或f，s(c)表示所述每个文本块的上下文关联度。

4.如权利要求2所述的方法，其特征在于，所述根据所述每个文本块的深度分数，将所述目标视频划分为多个语音单元，包括：
按照所述每个文本块的深度分数，对所述多个文本块进行排序；
根据排序结果，确定多个目标文本块，所述目标文本块的数量等于所述场景边界的数量的预设倍数；
采用所述多个目标文本块，将所述目标视频划分为多个语音单元。

5.如权利要求1所述的方法，其特征在于，所述根据所述多个场景边界、所述多个语音边界，确定所述目标视频的视频主题边界，包括：
将所述多个语音边界和所述多个场景边界分别映射到所述目标视频的时间轴上；
分别计算所述多个场景边界与每个所述语音边界之间的多个时间间...

【专利技术属性】
技术研发人员：周凡，
申请(专利权)人：中山大学深圳研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人