一种多模态数据自动化处理与信息提取方法及系统技术方案

技术编号:46579320 阅读:2 留言:0更新日期:2025-10-10 21:20
本发明专利技术公开了一种多模态数据自动化处理与信息提取方法,属于数据处理技术领域。包括根据业务场景下的原始训练数据,建立原始知识库;对原始知识库中的原始多模态数据进行预处理,得到预处理知识库;将预处理知识库输入到知识检索单元;将待查询文本转化为查询向量,计算查询向量与知识检索单元中的知识融合向量表示向量之间距离,通过近似最近邻索算法,得到检索结果;通过跨模态Transformer模型对检索结果进行多模态数据融合,将融合后的语义与用户查询结合生成答案。本方法能够处理文本、图像、音频和视频等多种模态的数据,通过视觉语言模型进行多模态融合与推理,实现信息的准确提取和结构化存储,提高数据分析与挖掘的效率和质量。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种多模态数据自动化处理与信息提取方法、系统、介质、设备及程序。


技术介绍

1、随着现代体育赛事信息化程度的不断提升,大型综合运动会等正面临着多源异构数据处理的关键技术挑战。赛事运营过程中产生的数据具有显著的多模态特征和时空复杂性,具体表现为:(1)数据源维度层面,既包含赛事计时记分系统、场馆物联感知设备产生的实时结构化数据如运动员生物特征、竞技成绩等,又涉及媒体传播系统生成的流媒体数据如4k/8k赛事直播视频、社交媒体平台的ugc内容如观众互动评论以及历史赛事档案资料等非结构化数据;(2)技术标准层面,不同设备厂商采用的通信协议差异显著如rtmp、mqtt、http/2等,数据编码格式存在xml、json、protobuf等多种形态;(3)语义规范层面,各子系统对"赛事项目""参赛单元""竞赛日程"等核心概念的元数据定义尚未形成统一标准,导致跨系统数据融合分析存在语义鸿沟。

2、当前赛事数据处理系统多采用垂直领域解决方案,如基于关系型数据库的成绩处理系统、基于流计算引擎的物联数据分析系统等。这类系统虽能在特定领本文档来自技高网...

【技术保护点】

1.一种多模态数据自动化处理与信息提取方法,其特征在于,包括:

2.根据权利要求1所述的一种多模态数据自动化处理与信息提取方法,其特征在于,所述根据业务场景下的原始训练数据,建立原始知识库;对原始知识库中的原始多模态数据进行预处理,得到预处理知识库;将预处理知识库输入到知识检索单元,包括:

3.根据权利要求1所述的一种多模态数据自动化处理与信息提取方法,其特征在于,所述将待查询文本转化为查询向量,计算查询向量与知识检索单元中的知识融合向量表示向量之间距离,通过近似最近邻索算法,得到检索结果,包括:

4.根据权利要求3所述的一种多模态数据自动化处理与信息...

【技术特征摘要】

1.一种多模态数据自动化处理与信息提取方法,其特征在于,包括:

2.根据权利要求1所述的一种多模态数据自动化处理与信息提取方法,其特征在于,所述根据业务场景下的原始训练数据,建立原始知识库;对原始知识库中的原始多模态数据进行预处理,得到预处理知识库;将预处理知识库输入到知识检索单元,包括:

3.根据权利要求1所述的一种多模态数据自动化处理与信息提取方法,其特征在于,所述将待查询文本转化为查询向量,计算查询向量与知识检索单元中的知识融合向量表示向量之间距离,通过近似最近邻索算法,得到检索结果,包括:

4.根据权利要求3所述的一种多模态数据自动化处理与信息提取方法,其特征在于,所述知识检索单元中的知识融合向量通过以下步骤获得:

5.根据权利要求1所述的一种多模态数据自动化处理与信息提取方法,其特征在于,所述通过跨模态transformer模型对检索结果进行多模态数据融合,将融合后的语义与用户查询结合生成答案,包括:

...

【专利技术属性】
技术研发人员:岳明桥常秀丰李一姚鹏飞沈斌段玉保王超
申请(专利权)人:中国人民解放军九二四九三部队信息技术中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1