System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 历史人物信息知识库更新方法、系统、介质及电子设备技术方案_技高网

历史人物信息知识库更新方法、系统、介质及电子设备技术方案

技术编号:40769841 阅读:2 留言:0更新日期:2024-03-25 20:18
本发明专利技术提供一种历史人物信息知识库更新方法、系统、存储介质及电子设备,包括:获取历史人物未标注文本和所述历史人物未标注文本对应的错误文本;基于所述历史人物未标注文本和所述错误文本,采用大语言模型识别所述历史人物未标注文本对应的标注文本;基于所述标注文本构建对应的标注错误文本;基于所述标注文本和所述标注错误文本对所述大语言模型进行微调,获取微调后的大语言模型;基于微调后的大语言模型识别待识别的历史人物未标注文本对应的标注文本;基于识别到的标注文本对历史人物信息知识库进行更新。本发明专利技术的历史人物信息知识库更新方法、系统、存储介质及电子设备采用大语言模型对历史人物信息库进行自动更新,且精准高效。

【技术实现步骤摘要】

本专利技术属于深度学习的,特别是涉及一种历史人物信息知识库更新方法、系统、介质及电子设备


技术介绍

1、随着科技的不断发展,人类社会对信息的需求量越来越大。历史人物信息知识库作为人类历史研究和教育的重要工具,需要不断更新和完善。

2、现有技术中,历史人物信息知识库更新主要采用以下方式。

3、(1)利用人工进行标注。

4、但是,人工标注可能存在疏忽或错误,导致信息准确性受限,且速度太慢,无法满足业务要求。另外,不同来源的历史人物信息可能存在差异,难以实现数据一致性。

5、(2)利用正则等规则方法进行标注。

6、由于历史人物信息知识库包含大量的标签,如字、号、出生年月、逝世年月、出生地、作品等,若是利用正则需要维护大量的正则表达式,且仍存在遗漏的风险,导致信息准确性受限。

7、(3)利用逻辑进行历史人物信息纠错。

8、然而,当缺乏对历史人物信息的上下文理解时,容易出现信息割裂和重复。另外,需要人力维护逻辑,容易出现误报漏报。

9、(4)利用多个模型实现抽取和纠错。

10、传统的bert模型在处理长文本时存在上下文理解不足的问题,容易出现过拟合,并且需要大量的训练数据,且需要维护多个模型。


技术实现思路

1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种历史人物信息知识库更新方法、系统、介质及电子设备,采用大语言模型对历史人物信息库进行自动更新,且准确度高、更新速度快。

2、第一方面,本专利技术提供一种历史人物信息知识库更新方法,所述方法包括以下步骤:获取历史人物未标注文本和所述历史人物未标注文本对应的错误文本;基于所述历史人物未标注文本和所述错误文本,采用大语言模型识别所述历史人物未标注文本对应的标注文本;基于所述标注文本构建对应的标注错误文本;基于所述标注文本和所述标注错误文本对所述大语言模型进行微调,获取微调后的大语言模型;基于微调后的大语言模型识别待识别的历史人物未标注文本对应的标注文本;基于识别到的标注文本对历史人物信息知识库进行更新。

3、在第一方面的一种实现方式中,基于所述历史人物未标注文本和所述错误文本,采用大语言模型识别所述历史人物未标注文本对应的标注文本包括以下步骤:

4、生成最佳prompt;

5、将所述历史人物未标注文本、所述错误文本和所述最佳prompt输入所述大语言模型,获取所述大语言模型识别的标注文本。

6、在第一方面的一种实现方式中,生成最佳prompt包括以下步骤:

7、获取训练文本信息和对应的标注信息;

8、获取所述训练文本信息对应的错误信息;

9、采用不同的prompt,基于大语言模型获取所述训练文本信息、所述标注信息和所述错误信息对应的预测结果;

10、根据所述预测结果评估各个prompt的效果指标,并将效果指标最好的prompt作为最佳prompt。

11、在第一方面的一种实现方式中,采用低秩自适应算法对所述大语言模型进行微调。

12、在第一方面的一种实现方式中,基于识别到的标注文本对历史人物信息知识库进行更新包括以下步骤:

13、将所述识别到的标注文本生成结构化数据;

14、将所述结构化数据存储至所述历史人物信息知识库。

15、在第一方面的一种实现方式中,所述大语言模型采用chatglm2-6b模型。

16、在第一方面的一种实现方式中,还包括将待识别的错误文本输入所述微调后的大语言模型,以获取纠错后的正确文本。

17、第二方面,本专利技术提供一种历史人物信息知识库更新系统,所述系统包括获取模块、第一识别模块、构建模块、微调模块、第二识别模块和更新模块;

18、所述获取模块用于获取历史人物未标注文本和所述历史人物未标注文本对应的错误文本;

19、所述第一识别模块用于基于所述历史人物未标注文本和所述错误文本,采用大语言模型所述识别历史人物未标注文本对应的标注文本;

20、所述构建模块用于基于所述标注文本构建对应的标注错误文本;

21、所述微调模块用于基于所述标注文本和所述标注错误文本对所述大语言模型进行微调,获取微调后的大语言模型;

22、所述第二识别模块用于基于微调后的大语言模型识别待识别的历史人物未标注文本对应的标注文本;

23、所述更新模块用于基于识别到的标注文本对历史人物信息知识库进行更新。

24、第三方面,本专利技术提供一种电子设备,所述电子设备包括:处理器和存储器;

25、所述存储器用于存储计算机程序;

26、所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的历史人物信息知识库更新方法。

27、第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被电子设备执行时实现上述的历史人物信息知识库更新方法。

28、如上所述,本专利技术所述的历史人物信息知识库更新方法、系统、介质及电子设备,具有以下有益效果。

29、(1)基于大语言模型对历史人物信息知识库进行自动更新,保证了数据的一致性。

30、(2)能够利用大语言模型的特点对存在错误的文本进行纠错。

31、(3)无需人工标注,有效节省了人力成本;无需维护大量的正则表达式,避免了误报漏报的风险。

本文档来自技高网...

【技术保护点】

1.一种历史人物信息知识库更新方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的历史人物信息知识库更新方法,其特征在于:采用低秩自适应算法对所述大语言模型进行微调。

3.根据权利要求1所述的历史人物信息知识库更新方法,其特征在于:基于识别到的标注文本对历史人物信息知识库进行更新包括以下步骤:

4.根据权利要求1所述的历史人物信息知识库更新方法,其特征在于:所述大语言模型采用chatglm2-6B模型。

5.根据权利要求1所述的历史人物信息知识库更新方法,其特征在于:还包括将待识别的错误文本输入所述微调后的大语言模型,以获取纠错后的正确文本。

6.一种历史人物信息知识库更新系统,其特征在于,所述系统包括获取模块、第一识别模块、构建模块、微调模块、第二识别模块和更新模块;

7.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至5中任一项所述的历史人物信息知识库更新方法。>...

【技术特征摘要】

1.一种历史人物信息知识库更新方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的历史人物信息知识库更新方法,其特征在于:采用低秩自适应算法对所述大语言模型进行微调。

3.根据权利要求1所述的历史人物信息知识库更新方法,其特征在于:基于识别到的标注文本对历史人物信息知识库进行更新包括以下步骤:

4.根据权利要求1所述的历史人物信息知识库更新方法,其特征在于:所述大语言模型采用chatglm2-6b模型。

5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:杨子昭
申请(专利权)人:上海蜜度科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1