基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法、设备、介质及产品技术

技术编号：44739643 阅读：15 留言：0更新日期：2025-03-21 18:07

本发明专利技术公开了一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，视频预处理入库；根据用户输入的对视频内容的检索文本，利用大语言模型进行分词及优化处理；随后对视频内容的演职员表进行OCR识别并匹配人物角色关联关系；对于物体进行目标检测；对于用户检索中的涉及的场景、事件内容则通过CLIP模型建立的跨模态映射，将视频帧转换为向量表示，并与查询文本的向量表示进行对比，计算视频帧与查询文本之间的相似度；最后通过命中数量和最终加权得分进行二次排序。本发明专利技术还公开了一种电子设备、介质及产品。本发明专利技术提升影视剧媒体视频素材内容检索能力，并通过融合算法进行综合判定，得到高质量的视频检索方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频检索技术，更具体地说，涉及一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法、设备、介质及产品。

技术介绍

1、随着互联网技术的发展和媒体内容的日益丰富，视频作为信息传播的重要载体，在领域得到了广泛的应用。然而，面对海量的视频数据，如何高效、精准地检索出用户所需的信息成为了一个亟待解决的问题。传统的视频检索方式大多依赖于关键词匹配或者简单的视觉特征比对，这种方式不仅效率低下，而且难以满足用户对检索结果质量的要求。

2、而随着人工智能的发展，ocr目标检测、人脸识别技术日趋成熟，并在各类应用中实现越来越高的准确率；同时基于跨模态的向量特征检索也创新性的应用到了内容检索中；同时，大语言模型可以对用户的检索文本及用户检索交互起到更好的优化和扩展效果。

技术实现思路

1、针对现有技术中存在的缺陷，本专利技术的目的是提供一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法、设备、介质及产品，提升影视剧媒体视频素材内容检索能力...

【技术保护点】

1.一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，其特征在于：

2.根据权利要求1所述的基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，其特征在于，所述视频预处理入库具体包括以下步骤：

3.根据权利要求2所述的基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，其特征在于，所述步骤S1具体包括：

4.根据权利要求3所述的基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，其特征在于，根据用户输入的对视频内容的检索文本，利用大语言模型进行分词及优化处理，具体包括...

【技术特征摘要】

1.一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，其特征在于：

3.根据权利要求2所述的基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，其特征在于，所述步骤s1具体包括：

4.根据权利要求3所述的基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法，其特征在于，根据用户输入的对视频内容的检索文本，利用大语言模型进行分词及优化处理，具体包括：

5.根据权利要求3所述的基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检...

【专利技术属性】
技术研发人员：张世乐，陆趣，李哲，杨逸钧，杨温奇，梅德静，卢宝丰，
申请(专利权)人：东方明珠新媒体股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人