【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种基于向量检索和大语言模型的事件脉络还原方法和系统。
技术介绍
1、事件脉络还原任务目标是从多个新闻文档中提取关键事件,构建出按时间顺序排列的事件线索链。该任务是时间感知信息抽取和文本摘要等任务的交叉点,常用于多文档摘要、新闻分析等应用中。
2、较传统的方法多采用信息抽取与规则系统相结合的方式,从文本中识别事件三元组、时间表达以及实体关系,并通过时间标签进行简单排序。然而,这类方法高度依赖手工特征与规则库,泛化能力差,难以适应复杂的跨文档、多段落、多维度的事件数据。
3、随着深度学习和大语言模型的发展,出现了利用大语言模型(如chatgpt)进行事件抽取与排序的方法,通过设计自然语言提示词(prompt)引导模型生成结构化事件信息,在一定程度上缓解了传统方法特征设计复杂、时间推理薄弱的问题。该方法具有零样本或少样本适配能力,显著降低了对标注数据和规则设计的依赖,适用于数据分布不确定的应用环境。然而,该方案在生成内容的可控性、时间推理的准确性方面仍存在不确定性,易产生时间错乱、
...【技术保护点】
1.一种基于向量检索和大语言模型的事件脉络还原方法,其特征在于,包括:
2.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,利用查询词在原始结构化文档中进行语义检索,得到与查询词语义相近的相似文本集合,包括:
3.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,在利用查询词在原始结构化文档中进行语义检索过程中,使用同一预训练的语义编码模型分别对查询词和若干待索引文本进行编码。
4.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,向量索引结构为利用FA
...【技术特征摘要】
1.一种基于向量检索和大语言模型的事件脉络还原方法,其特征在于,包括:
2.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,利用查询词在原始结构化文档中进行语义检索,得到与查询词语义相近的相似文本集合,包括:
3.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,在利用查询词在原始结构化文档中进行语义检索过程中,使用同一预训练的语义编码模型分别对查询词和若干待索引文本进行编码。
4.根据权利要求2所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,向量索引结构为利用faiss语义检索机制构建基于l2距离的向量索引结构。
5.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,基于相似文本集合,构建信息抽取提示词,包括:
6.根据权利要求1所述的基于向量检索和大语言模型的事件脉络还原方法,其特征在于,对结构化事件信息中的所有结构化事件进行时间顺序重建,得到事件时间线,包括:
7...
【专利技术属性】
技术研发人员:王玮琦,陈佳佳,陈伟健,张新宇,邱阳,董文祥,
申请(专利权)人:数据空间研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。