System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的煤化工领域命名实体识别方法技术_技高网

一种基于大语言模型的煤化工领域命名实体识别方法技术

技术编号:41272934 阅读:6 留言:0更新日期:2024-05-11 09:26
本发明专利技术提出一种基于大语言模型的煤化工领域中文命名实体识别方法,首先,通过预定义特定的关系类型,将实体类型信息与每个关系类型相关联,以提高大语言模型(Large Language Model,LLM)(e.g.GPT‑3.5)对实体‑关系的语义理解和实体在文本中的相关性。其次,根据特定任务的提示指令,使大语言模型生成与预定义的关系类型相似的关系列表。然后,将关系列表和特定任务模板的提示指令作为大语言模型的输入,使用实体‑关系的语义信息确定文本中存在的实体并进行识别。最后,采用可信性和一致性度量标准加权评估实体槽,并剔除错误实体。有效地抽取出具有复杂情况的煤化工领域相关实体,包括多个实体共享同一实体以及同一对实体之间存在多个关系的情况。

【技术实现步骤摘要】

本专利技术为自然语言处理领域,具体涉及一种基于大语言模型的煤化工领域命名实体识别方法


技术介绍

1、我国在“十四五”规划中明确了煤化工行业的发展方向,即以技术创新为核心,通过创新提升产业竞争力。然而,当前煤化工企业在信息化建设方面存在生产过程中数据和信息无法实现有效关联的问题。海量的企业报告、化工学术论文和专利等不断积累,高效准确地从中挖掘出煤化工领域实体,可为后续研究,如煤化工产业图谱的构建,带来较大的便利。因此,命名实体识别(named entity recognition,简称ner)技术可以快速准确地从煤化工相关文本数据中获取与产业相关的实体信息。基于ner技术,可以从数据中提取出诸如煤化工产品、产业政策、下游行业、上游原材料、工艺技术和企业等信息,为煤化工产业投资决策、产业规划和结构研究提供数据支持。

2、基于深度学习的方法在命名实体识别任务中得到了广泛应用,已经取得了先进的结果。相对于传统的手工构造特征的方法,基于深度学习的方法不需要手动设计特征,可以通过训练大量数据自动获得模型。其中,基于单向长短期记忆(lstm)模型优异的序列建模能力,许多方法使用lstm条件随机场(crf)作为ner任务的主要框架,并在此基础上融合各种相关特征。bilstm-crf是最常用的方法,以该方法为主要框架实现了最先进的性能。但是,深度学习模型通常需要大量的标注数据来训练,以便有效地学习实体识别任务,而在煤化工领域因大规模标注数据非常昂贵和耗时,标注数据的稀缺性会限制深度学习方法的性能。此外,与英语相比,汉语没有天然的界限。单一词汇的模糊边界、难以准确确定单词的边界使汉语的ner更加困难。然而,大语言模型能够捕捉文本中的上下文信息,并通过上下文来推断实体的边界和类型,这有助于识别出文本中结构复杂表达方式多种多样的实体。并且大语言模型可以进行迁移学习,从其他领域的文本中学习到的知识有助于处理煤化工文本中的实体。

3、但是,直接将大语言模型应用在煤化工命名实体识别时效果并不理想,因为,煤化工文本数据中存在多个实体共享一个实体或同一实体对具有多个关系的复杂情况,会出现错误归类和遗漏实体的问题。为了解决这个问题提出了一种基于大语言模型的煤化工领域命名实体识别方法。通过将多个实体之间的联系以关系的形式进行关联,旨在解决实体遗漏,并通过可信性和一致性加权评估来剔除错误实体,从而解决错误归类的情况。因此,能够有效地提取煤化工实体信息,并提高实体识别的准确性和完整性。


技术实现思路

1、本专利技术的目的在于提出一种基于大语言模型的煤化工领域命名实体识别方法,以解决煤化工领域内由多个实体共享一个实体或同一对实体具有多个关系的复杂情况而导致的实体错误归类和遗漏等问题。

2、实现本专利技术目的的技术解决方案为:一种基于大语言模型的煤化工领域命名实体识别方法,包括如下步骤:

3、步骤(s1)提示大语言模型生成关系列表;

4、步骤(s2)结合生成的关系列表,采用关系驱动的方式进行实体识别;

5、步骤(s3)运用pagerank算法对实体进行可信度评估;

6、步骤(s4)基于bert的语义相似性计算评估生成的实体信息与文本之间的一致性;

7、步骤(s5)将可信性和一致性结果加权处理,以筛选和验证实体;

8、步骤(s6)评价模型训练的结果。

9、本专利技术的有益效果:

10、1)大语言模型具有迁移学习的能力,从其他领域的文本中学习到的知识有助于处理煤化工文本中的实体。

11、2)将pagerank算法和bert模型的结果加权处理,可以有效的解决由大语言模型产生的“幻觉”问题,提高实体识别的准确性和完整性。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:所述方法步骤如下:

2.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(S1),提示大语言模型生成多样化关系,首先预定义上下文中特定的关系类型;其次,将实体类型信息与预定义的关系相关联;最后,将上述内容作为提示指令输入到大语言模型中,以生成一个关系列表,其中包含大量多样化的关系,这些关系与预定义的关系类型相似。

3.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(S2),结合生成的关系列表,采用关系驱动的方式进行实体识别,主要是根据生成的相似关系列表和特定任务模板的提示作为问题在将文本结合起来以作为大语言模型的输入,让关系列表中的每个关系利用实体与关系之间的语义联系,确定文本中存在的实体并对实体进行识别。

4.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(S3),运用PageRank算法对实体进行可信度评估,首先,可信性指在用关系列表进行实体匹配时,如果一个实体槽位经常与其他槽同时出现,那它就是可信的;由于是多个关系对实体进行的匹配,因此,可以将实体作为图的节点,实体之间的关系作为图的边,利用PageRank算法对这个关系图进行迭代计算,为每个实体赋予一个PageRank值,该值表示该节点的可信度,其主要包括:

5.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(S4),基于BERT的语义相似性计算评估生成的实体信息与文本之间的一致性,通过微调BERT模型来计算生成的实体信息与文本之间的语义相似性,从而评估它们的一致性并过滤掉与文本不符的实体对,其主要包括:

6.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(S5),将可信性和一致性结果进行加权处理,以筛选和验证实体,其主要包括:

7.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(S6),评价模型结果,根据模型对测试集的预测并采用召回率、精确率和F1值对模型评价,评价指标:

...

【技术特征摘要】

1.一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:所述方法步骤如下:

2.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(s1),提示大语言模型生成多样化关系,首先预定义上下文中特定的关系类型;其次,将实体类型信息与预定义的关系相关联;最后,将上述内容作为提示指令输入到大语言模型中,以生成一个关系列表,其中包含大量多样化的关系,这些关系与预定义的关系类型相似。

3.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(s2),结合生成的关系列表,采用关系驱动的方式进行实体识别,主要是根据生成的相似关系列表和特定任务模板的提示作为问题在将文本结合起来以作为大语言模型的输入,让关系列表中的每个关系利用实体与关系之间的语义联系,确定文本中存在的实体并对实体进行识别。

4.根据权利要求1所述的一种基于大语言模型的煤化工领域中文命名实体识别方法,其特征在于:步骤(s3),运用pagerank算法对实体进行可信度评估,首先,可信性指在用关系列...

【专利技术属性】
技术研发人员:肖乐徐云飞赵婧单昕陈啸林
申请(专利权)人:河南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1