System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 历史人物信息纠错方法、系统、电子设备和存储介质技术方案_技高网

历史人物信息纠错方法、系统、电子设备和存储介质技术方案

技术编号:40242965 阅读:4 留言:0更新日期:2024-02-02 22:40
本申请提供一种历史人物信息纠错方法、系统、电子设备和存储介质,所述方法包括:应用预训练的关系抽取模型识别待纠错文本,得到模型识别结果;判断所述模型识别结果中是否包括三元组信息;若是,则将模型识别结果输入预先构建好的知识图谱,并利用所述知识图谱校正所述模型识别结果;否则基于LangChain、大语言模型和知识图谱库,校正所述待纠错文本。本申请采用自动化技术,减少了人工审核的时间和工作量,提高纠错效率;基于LangChain、大语言模型和知识图谱库进行纠错,结合专业知识和上下文信息,提高纠错的针对性、准确性和可靠性;通过知识图谱引入更多的上下文信息和关联知识,提高了对于缺乏结构性信息的历史人物纠错能力,避免出现大量的误报和漏报。

【技术实现步骤摘要】

本申请属于自然语言处理,特别是涉及一种历史人物信息纠错方法、系统、电子设备和存储介质


技术介绍

1、历史人物作为历史研究和文化传承的重要对象,其准确的信息对于理解历史事件和人物的影响至关重要。然而,由于历史文献的复杂性和多样性,历史人物信息中存在着许多错误和不准确的地方。这些错误可能是由于历史文献的错误记载、传统观念的误导或者编辑人员的疏忽所导致。错误的历史人物信息会对学术研究、教育教学和文化传承造成负面影响,降低相关领域的准确性和可信度。因此,进行历史人物信息纠错是必要的,可以提高历史研究的准确性,保护历史文化遗产的完整性。

2、然而,现有的历史文物信息纠错方法普遍存在如下技术缺陷:1)人工审核费时费力,容易出现遗漏和错误;2)大规模收集和整理历史人物信息需要耗费大量时间、人力和物力,并且容易出现漏洞和错误;3)通用模型无法准确识别历史人物信息,需要根据相关领域专业知识进行优化;4)基于上下文信息纠错在缺乏相关结构性信息时容易失效。

3、因此,如何提供一种历史人物信息纠错方法、系统、电子设备和存储介质,以提高对历史人物信息纠错的效率和准确性,实已成为本领域技术人员亟待解决的技术问题。


技术实现思路

1、本申请的目的在于提供一种历史人物信息纠错方法、系统、电子设备和存储介质,用于提高历史人物信息纠错的效率和准确性。

2、第一方面,本申请提供一种历史人物信息纠错方法,包括:应用预训练的关系抽取模型识别待纠错文本,得到模型识别结果;判断所述模型识别结果中是否包括三元组信息;若是,则将所述模型识别结果输入预先构建好的知识图谱,并利用所述知识图谱校正所述模型识别结果;否则基于langchain、大语言模型和知识图谱库,校正所述待纠错文本。

3、在第一方面的一种实现方式中,所述关系抽取模型的训练方法包括:收集与历史人物相关的第一标注样本;利用所述第一标注样本训练少样本学习模型,以学习所述第一标注样本中各实体之间的关系;利用训练好的所述少样本学习模型预测包含未知实体和实体关系的无标注样本,得到第二标注样本;人工修正所述第二标注样本的预测误差,得到修正后的第二标注样本;确定训练集和测试集的划分比例;将所述修正后的第二标注样本按照所述划分比例随机分配到训练数据集和测试数据集;使用所述训练数据集训练关系抽取模型;使用所述测试数据集评估所述关系抽取模型的训练效果;保存达到理想训练效果的所述关系抽取模型。

4、在第一方面的一种实现方式中,所述关系抽取模型采用流水线方法识别所述待纠错文本,得到模型识别结果包括:识别所述待纠错文本中的主体;识别所述待纠错文本中的客体;基于识别出的所述主体和所述客体,构建实体对;对所述实体对进行关系分类,以确定所述主体和所述客体之间的关系类型;基于所述主体、所述客体和所述关系类型,构建三元组。

5、在第一方面的一种实现方式中,所述关系抽取模型采用参数共享的联合抽取方法识别所述待纠错文本,得到模型识别结果包括:基于第一参数识别所述待纠错文本中的主体,并计算主体抽取产生的损失值;基于第二参数识别所述待纠错文本中的客体,并计算客体抽取产生的损失值;基于第三参数确定所述主体和所述客体之间的关系类型,并计算关系抽取产生的损失值;基于所述主体抽取产生的损失值、所述客体抽取产生的损失值和所述关系抽取产生的损失值,计算联合损失值;判断所述联合损失值是否达到预设阈值;若是,则基于所述主体、所述客体和所述关系类型,构建三元组;否则基于所述联合损失值,更新所述第一参数、所述第二参数和所述第三参数,并重复上述实体识别、关系确定和损失值计算过程,直至所述联合损失值达到预设阈值。

6、在第一方面的一种实现方式中,所述关系抽取模型采用联合解码的联合抽取方法识别待纠错文本,得到模型识别结果包括:同步识别所述待纠错文本中的主体、客体和关系类型;基于所述主体、所述客体和所述关系类型,构建三元组。

7、在第一方面的一种实现方式中,利用所述知识图谱校正所述模型识别结果包括:获取所述模型识别结果中的三元组;在所述知识图谱中查询与所述三元组相关的信息,得到知识图谱的查询结果;将所述知识图谱的查询结果与所述模型识别结果进行比对,以判断所述模型识别结果是否准确;对不准确的所述模型识别结果进行实体校正或关系校正,并输出校正后的所述模型识别结果。

8、在第一方面的一种实现方式中,基于langchain、大语言模型和知识图谱库,校正所述待纠错文本包括:利用所述langchain从所述知识图谱库提取第一文本向量,并基于所述第一文本向量建立向量存储库;从所述待纠错文本中提取第二文本向量;从所述向量存储库中获取与所述第二文本向量相似的所述第一文本向量,得到相似文本向量;将所述第二文本向量和所述相似文本向量进行拼接,得到提示词;将所述提示词输入所述大语言模型;利用所述大语言模型对所述提示词进行处理,得到纠错后的文本。

9、第二方面,本申请提供一种历史人物信息纠错系统,包括:识别模块,用于应用预训练的关系抽取模型识别待纠错文本,得到模型识别结果;判断模块,用于判断所述模型识别结果中是否包括三元组信息;第一校正模块,用于在所述模型识别结果中包括三元组信息时,将所述模型识别结果输入预先构建好的知识图谱,并利用所述知识图谱校正所述模型识别结果;第二校正模块,用于在所述模型识别结果中不包括三元组信息时,基于langchain、大语言模型和知识图谱库,校正所述待纠错文本。

10、第三方面,本申请提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述任一项所述的方法。

11、第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的方法。

12、如上所述,本申请所述的历史人物信息纠错方法、系统、电子设备和存储介质,具有以下有益效果:

13、(1)采用自动化技术,减少了人工审核的时间和工作量,提高纠错效率;

14、(2)基于langchain、大语言模型和知识图谱库进行纠错,并结合专业知识和上下文信息,提高了历史人物纠错的针对性、准确性和可靠性;

15、(3)利用少样本学习模型可以快速将非结构化信息整理成结构化信息,从而能够高效地收集和整理大量历史人物的相关资料,减少时间和人力成本,并提高整理的准确性;

16、(4)通过知识图谱引入更多的上下文信息和关联知识,提高了对于缺乏结构性信息的历史人物纠错能力,避免出现大量的误报和漏报。

本文档来自技高网...

【技术保护点】

1.一种历史人物信息纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述关系抽取模型的训练方法包括:

3.根据权利要求1所述的方法,其特征在于,所述关系抽取模型采用流水线方法识别所述待纠错文本,得到模型识别结果包括:

4.根据权利要求1所述的方法,其特征在于,所述关系抽取模型采用参数共享的联合抽取方法识别所述待纠错文本,得到模型识别结果包括:

5.根据权利要求1所述的方法,其特征在于,所述关系抽取模型采用联合解码的联合抽取方法识别待纠错文本,得到模型识别结果包括:

6.根据权利要求1所述的方法,其特征在于,利用所述知识图谱校正所述模型识别结果包括:

7.一种历史人物信息纠错系统,其特征在于,包括:

8.一种电子设备,其特征在于,包括:处理器及存储器;

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的方法。

【技术特征摘要】

1.一种历史人物信息纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述关系抽取模型的训练方法包括:

3.根据权利要求1所述的方法,其特征在于,所述关系抽取模型采用流水线方法识别所述待纠错文本,得到模型识别结果包括:

4.根据权利要求1所述的方法,其特征在于,所述关系抽取模型采用参数共享的联合抽取方法识别所述待纠错文本,得到模型识别结果包括:

5.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:杨子昭
申请(专利权)人:上海蜜度科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1