一种基于向量检索和大语言模型的事件脉络还原方法和系统技术方案

技术编号:46624366 阅读:1 留言:0更新日期:2025-10-14 21:20
本发明专利技术公开了一种基于向量检索和大语言模型的事件脉络还原方法和系统,涉及自然语言处理领域,包括:获取用户的查询词和查询词对应的原始结构化文档;利用查询词在原始结构化文档中进行语义检索,得到与查询词语义相近的相似文本集合;基于相似文本集合,构建信息抽取提示词;利用预设的大语言模型根据信息抽取提示词对相似文本集合进行事件信息抽取,得到结构化事件信息;对结构化事件信息中的所有结构化事件进行时间顺序重建,得到事件时间线;对事件时间线进行因果逻辑校验,得到因果逻辑校验结果;若因果逻辑校验结果为通过,则将事件时间线输出。本发明专利技术有效提升输出的事件时间线中的事件链的完整性与逻辑可靠性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种基于向量检索和大语言模型的事件脉络还原方法和系统


技术介绍

1、事件脉络还原任务目标是从多个新闻文档中提取关键事件,构建出按时间顺序排列的事件线索链。该任务是时间感知信息抽取和文本摘要等任务的交叉点,常用于多文档摘要、新闻分析等应用中。

2、较传统的方法多采用信息抽取与规则系统相结合的方式,从文本中识别事件三元组、时间表达以及实体关系,并通过时间标签进行简单排序。然而,这类方法高度依赖手工特征与规则库,泛化能力差,难以适应复杂的跨文档、多段落、多维度的事件数据。

3、随着深度学习和大语言模型的发展,出现了利用大语言模型(如chatgpt)进行事件抽取与排序的方法,通过设计自然语言提示词(prompt)引导模型生成结构化事件信息,在一定程度上缓解了传统方法特征设计复杂、时间推理薄弱的问题。该方法具有零样本或少样本适配能力,显著降低了对标注数据和规则设计的依赖,适用于数据分布不确定的应用环境。然而,该方案在生成内容的可控性、时间推理的准确性方面仍存在不确定性,易产生时间错乱、事实偏差等问题,不适本文档来自技高网...

【技术保护点】

1.一种基于向量检索和大语言模型的事件脉络还原方法,其特征在于,包括:

2.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,利用查询词在原始结构化文档中进行语义检索,得到与查询词语义相近的相似文本集合,包括:

3.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,在利用查询词在原始结构化文档中进行语义检索过程中,使用同一预训练的语义编码模型分别对查询词和若干待索引文本进行编码。

4.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,向量索引结构为利用FAISS语义检索机制构...

【技术特征摘要】

1.一种基于向量检索和大语言模型的事件脉络还原方法,其特征在于,包括:

2.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,利用查询词在原始结构化文档中进行语义检索,得到与查询词语义相近的相似文本集合,包括:

3.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,在利用查询词在原始结构化文档中进行语义检索过程中,使用同一预训练的语义编码模型分别对查询词和若干待索引文本进行编码。

4.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,向量索引结构为利用faiss语义检索机制构建基于l2距离的向量索引结构。

5.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,基于相似文本集合,构建信息抽取提示词,包括:

6.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,对结构化事件信息中的所有结构化事件进行时间顺序重建,得到事件时间线,包括:

7...

【专利技术属性】
技术研发人员:王玮琦陈佳佳陈伟健张新宇邱阳董文祥
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1