一种卫星文档表格数据检索方法、装置、设备及介质制造方法及图纸

技术编号:45664320 阅读:11 留言:0更新日期:2025-06-27 19:03
本发明专利技术公开了一种卫星文档表格数据检索方法、装置、设备及介质,所述方法通过获取卫星文档中的表格信息,对表格信息进行向量化处理,以获得表征表格信息的嵌入向量,将用户提问问题与表格信息的嵌入向量进行对比分析,以筛选出与用户提问问题相匹配的表格数据,将筛选出的表格数据作为检索结果反馈至用户。所述方法根据文档XML格式解码其中的表格内容,递归的构建JSON格式化结构。利用表头信息、表体信息及上下文文档资料信息,使用大语言模型的Prompts技术进行核心信息凝练及高维度向量化数值压缩。此外,针对表格JSON格式化后tokens可能超过大语言模型上限的问题,采用迭代信息整合法,渐进式的对表格信息进行凝练及汇总,从而保证了检索内容的精确性。

【技术实现步骤摘要】

本专利技术属于自然语言处理,特别是涉及一种卫星文档表格数据检索方法、装置、设备及介质


技术介绍

1、卫星领域中表格内容的检索功能,不仅需要较高的精准性,还要应对灵活多变的提问方式。表格内容的格式化方式与传统文档信息也有一定的差异,具有规范化的数据信息表征形式,以及缺少元素域信息的上下文关联描述等特点。现有技术有的将表格信息直接作为文档信息处理,即提取表格中的资料信息为自然语言字符,根据表格中二维结构数据转化成一维字符数据,然后提供给gpt或类似的大语言问答模型,作为提示信息并结合提问的问题,最终得到需要的答案。类似的,也有将表格数据格式作为增强检索生成(retrieval-augmented generation,rag)中数据源的一部分,通过固定长度对文档进行切分,在表格数据的处理中则是保留表格格式的上下文拓扑结构,用“|”等类似的字符提供元素域的划分关系,并期望利用大模型的上下文语义理解能力,让大模型理解“|”构建下表格形式的表达方式。

2、当将表格的二维结构化数据转换成一维的时候,损失了表格所提供的上下文拓扑结构化关系,此外表格数据以横本文档来自技高网...

【技术保护点】

1.一种卫星文档表格数据检索方法,其特征在于,包括:

2.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述获取卫星文档中的表格信息,包括:

3.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述对所述表格信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:

4.根据权利要求3所述的卫星文档表格数据检索方法,其特征在于,所述利用大语言模型对所述JSON结构表格数据及所述上下文压缩信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:

5.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述将用...

【技术特征摘要】

1.一种卫星文档表格数据检索方法,其特征在于,包括:

2.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述获取卫星文档中的表格信息,包括:

3.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述对所述表格信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:

4.根据权利要求3所述的卫星文档表格数据检索方法,其特征在于,所述利用大语言模型对所述json结构表格数据及所述上下文压缩信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:

5.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述将用户提问问题与所述表格信息的嵌入向量进行对比分析,以筛选出与所述用户提问问题相匹配的表格数...

【专利技术属性】
技术研发人员:杨金鑫董卫华
申请(专利权)人:上海创星之光创业孵化器管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1