基于多模态语义重心评估的视频标签提取方法及系统技术方案

技术编号：46227200 阅读：5 留言：0更新日期：2025-08-26 19:29

本申请公开了基于多模态语义重心评估的视频标签提取方法及系统，涉及人工智能技术领域，方法包括：对视频彩铃进行场景分割，得到多个场景片段；对各个场景片段提取得到视觉特征和音频特征；根据语义重心评估得到视觉特征和音频特征的重要性权重；通过可配置的标签层级架构生成多粒度的候选标签，并根据重要性权重对各个候选标签分配标签权重；对分配标签权重后的各个候选标签进行后处理，进而输出结构化的标签列表。本申请通过生成准确、丰富、多层次的标签，并根据语义重心评估得到的重要性权重对各个候选标签分配标签权重，显著提升视频彩铃的标签语义理解程度，从而提高了彩铃内容的搜索匹配度和用户查找效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及基于多模态语义重心评估的视频标签提取方法及系统。

技术介绍

1、当前彩铃服务主要依赖用户上传时填写的简单文字标签或运营商进行的粗略分类，标签体系不完善，难以准确描述彩铃视频的丰富内涵。用户在搜索彩铃时，往往因为标签不准确或维度单一，导致搜索结果与预期不符，查找效率低下。现有视频分析技术多侧重于长视频或特定场景，现有个性化推荐方案缺乏对彩铃视频内容层面的深度理解，难以精准捕捉用户偏好，推荐效果有限。

技术实现思路

1、本申请实施例的主要目的在于提出基于多模态语义重心评估的视频标签提取方法及系统，以提高视频彩铃的语义理解，进而实现个性化推荐。

2、为实现上述目的，本申请实施例的一方面提出了基于多模态语义重心评估的视频标签提取方法，所述方法包括以下步骤：

3、对视频彩铃进行场景分割，得到多个场景片段；

4、对各个所述场景片段提取得到视觉特征和音频特征；

5、根据语义重心评估得到所述视觉特征和所述音频特征的重要性权重；p>

6、通过可本文档来自技高网...

【技术保护点】

1.基于多模态语义重心评估的视频标签提取方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于多模态语义重心评估的视频标签提取方法，其特征在于，对各个所述场景片段提取得到所述视觉特征的步骤，包括以下步骤：

3.根据权利要求1所述的基于多模态语义重心评估的视频标签提取方法，其特征在于，对各个所述场景片段提取得到所述音频特征的步骤，包括以下步骤：

4.根据权利要求1所述的基于多模态语义重心评估的视频标签提取方法，其特征在于，所述根据语义重心评估得到所述视觉特征和所述音频特征的重要性权重，包括以下步骤：

5.根据权利要求4所述的基...

【技术特征摘要】

1.基于多模态语义重心评估的视频标签提取方法，其特征在于，所述方法包括以下步骤：

5.根据权利要求4所述的基于多模态语义重心评估的视频标签提取方法，其特征在于，所述分析所述视觉特征与所述音频特征的匹配度，进而提高匹配特征的权重，包括以下步骤：

...

【专利技术属性】
技术研发人员：范胜旭，
申请(专利权)人：天翼爱音乐文化科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人