【技术实现步骤摘要】
本专利技术属于自然语言处理,特别是涉及一种卫星文档表格数据检索方法、装置、设备及介质。
技术介绍
1、卫星领域中表格内容的检索功能,不仅需要较高的精准性,还要应对灵活多变的提问方式。表格内容的格式化方式与传统文档信息也有一定的差异,具有规范化的数据信息表征形式,以及缺少元素域信息的上下文关联描述等特点。现有技术有的将表格信息直接作为文档信息处理,即提取表格中的资料信息为自然语言字符,根据表格中二维结构数据转化成一维字符数据,然后提供给gpt或类似的大语言问答模型,作为提示信息并结合提问的问题,最终得到需要的答案。类似的,也有将表格数据格式作为增强检索生成(retrieval-augmented generation,rag)中数据源的一部分,通过固定长度对文档进行切分,在表格数据的处理中则是保留表格格式的上下文拓扑结构,用“|”等类似的字符提供元素域的划分关系,并期望利用大模型的上下文语义理解能力,让大模型理解“|”构建下表格形式的表达方式。
2、当将表格的二维结构化数据转换成一维的时候,损失了表格所提供的上下文拓扑结构化关
...【技术保护点】
1.一种卫星文档表格数据检索方法,其特征在于,包括:
2.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述获取卫星文档中的表格信息,包括:
3.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述对所述表格信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:
4.根据权利要求3所述的卫星文档表格数据检索方法,其特征在于,所述利用大语言模型对所述JSON结构表格数据及所述上下文压缩信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:
5.根据权利要求1所述的卫星文档表格数据检索方法,
...【技术特征摘要】
1.一种卫星文档表格数据检索方法,其特征在于,包括:
2.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述获取卫星文档中的表格信息,包括:
3.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述对所述表格信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:
4.根据权利要求3所述的卫星文档表格数据检索方法,其特征在于,所述利用大语言模型对所述json结构表格数据及所述上下文压缩信息进行向量化处理,以获得表征所述表格信息的嵌入向量,包括:
5.根据权利要求1所述的卫星文档表格数据检索方法,其特征在于,所述将用户提问问题与所述表格信息的嵌入向量进行对比分析,以筛选出与所述用户提问问题相匹配的表格数...
【专利技术属性】
技术研发人员:杨金鑫,董卫华,
申请(专利权)人:上海创星之光创业孵化器管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。