System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于钢材标准数据的复杂嵌套实体抽取方法、介质及设备技术_技高网

用于钢材标准数据的复杂嵌套实体抽取方法、介质及设备技术

技术编号:40297288 阅读:3 留言:0更新日期:2024-02-07 20:45
本发明专利技术涉及一种用于钢材标准数据的复杂嵌套实体抽取方法、介质及设备,所述方法包括以下步骤:利用深度学习模型对钢铁标准文件数据进行实体抽取,识别并抽取出其中的关键实体,并设置实体标签;基于规则模型及所述实体标签,对抽取出的各所述关键实体进行拼接,得到最终的嵌套实体,所述规则模型基于领域专家知识构建。与现有技术相比,本发明专利技术具有能够准确、可靠地抽取钢铁标准数据中复杂嵌套实体等优点。

【技术实现步骤摘要】

本专利技术属于计算机领域中的深度学习,涉及一种实体抽取方法,尤其是涉及一种用于钢材标准数据的复杂嵌套实体抽取方法、介质及设备


技术介绍

1、钢铁行业作为全球重要的基础产业,其生产和研发涉及大量钢铁标准,这些钢铁标准对于钢铁行业具有指导性和规范作用,为确保钢铁产品质量和安全性能提供了依据。针对钢铁标准数据的实体抽取有助于提高钢铁企业的生产效率和质量,同时优化其生产流程。然而,这些钢材标准数据往往呈现出复杂的嵌套结构,给实体抽取带来了一定的挑战,其主要表现包括以下几个方面:

2、1.钢铁标准嵌套实体的文本长度通常比较长,在钢铁标准中准确地抽取长文本嵌套实体具有较大的挑战性;

3、2.钢铁标准嵌套实体的数据标注难度更大、数据更加稀缺,这导致实体抽取模型难以获得足够的训练样本,从而影响模型的抽取性能;

4、3.嵌套实体之间可能存在相互包含的现象,识别实体边界更具挑战性。

5、因此,需要研究一种能够准确、可靠地抽取钢铁标准数据中复杂嵌套实体的技术。


技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷、解决钢铁标准文件抽取专业词词嵌套问题而提供一种融合深度学习和规则模型的用于钢材标准数据的复杂嵌套实体抽取方法、介质及设备,能够有效识别钢材标准数据及其嵌套实体,显著提高实体抽取的准确性和效率。

2、本专利技术的目的可以通过以下技术方案来实现:

3、一种用于钢材标准数据的复杂嵌套实体抽取方法,包括以下步骤:

4、利用深度学习模型对钢铁标准文件数据进行实体抽取,识别并抽取出其中的关键实体,并设置实体标签;

5、基于规则模型及所述实体标签,对抽取出的各所述关键实体进行拼接,得到最终的嵌套实体,所述规则模型基于领域专家知识构建。

6、进一步地,所述深度学习模型为基于bert-crf的实体抽取模型。

7、进一步地,所述深度学习模型的训练数据通过以下步骤获取:

8、从钢材标准文件中提取标准范围内容,作为深度学习模型标注语料的原始数据;

9、对所述原始数据进行分词处理,获取各分词的语料标注,生成分词并标注后的语料数据;

10、采用bmeso方法对所述语料数据进行处理,生成语料样例,作为所述训练数据。

11、进一步地,所述各分词的语料标注基于领域专家知识获取。

12、进一步地,采用jieba工具进行所述分词处理。

13、进一步地,所述深度学习模型的模型参数基于领域专家知识进行修正更新。

14、进一步地,所述规则模型包括嵌套实体抽取规则,基于所述嵌套实体抽取规则获取最终的嵌套实体的步骤包括:

15、1)依次从左到右扫描抽取获得的各词语;

16、2)针对当前词语,判断其是否具有实体标签且实体标签不为判断词,若是,则将当前词语作为待拼接实体,以下一个关键实体为当前关键实体,执行步骤3),若否,则跳过当前词语,以下一个词语为当前词语,重复步骤2);

17、3)判断当前词语是否具有实体标签,若是,则将当前词语添加至待拼接实体的结尾,以下一个词语为当前词语,重复步骤3),直至遍历所有词语,若否,则执行步骤4),且在当前的待拼接实体尾部存在判断词时剔除该判断词;

18、4)判断当前的待拼接实体是否满足非嵌套条件,若是,则不将该待拼接实体作为嵌套实体,若否,则将该待拼接实体作为嵌套实体;

19、5)以下一个词语为当前词语,返回步骤2),直至遍历所有词语。

20、进一步地,所述满足非嵌套条件具体为至少满足以下条件之一:

21、a)待拼接实体中的实体数量为1;

22、b)待拼接实体中只有判断词和专用词类别的实体。

23、本专利技术还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述用于钢材标准数据的复杂嵌套实体抽取方法的指令。

24、本专利技术还提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述用于钢材标准数据的复杂嵌套实体抽取方法的指令。

25、与现有技术相比,本专利技术具有以下有益效果:

26、本专利技术提高了实体抽取的准确性和完整性,具有易于理解、数据可解释性高的特点,推动了人工智能技术在钢铁领域的发展。

27、1、本专利技术采用深度学习技术对钢铁标准文件中的专业词汇进行实体抽取,在抽取过程中,充分考虑了钢材数据中的专业词汇和语境信息,从而能够更准确地识别关键实体,同时利用领域专家设计的规则模型对抽取出的实体进行拼接,生成嵌套实体,进一步提高实体抽取的完整性。

28、2、本专利技术的深度学习模型为基于bert-crf的实体抽取模型,将条件随机场(crf)与bert模型相结合,crf层能够更好地捕捉序列标注任务中的依赖关系,从而提高实体抽取的准确性,通过将crf层与bert模型集成,实现了更高的实体识别性能。

29、3、本专利技术为了充分利用钢铁领域专家知识,在语料标注过程中加入了钢铁专家的参与,钢铁专家根据行业的特点和需求,对标注体系进行了定制,确保标注的准确性和一致性。本专利技术根据钢铁数据的结构及实际应用场景,制定了适应于钢铁领域的嵌套实体抽取规则,从而解决针对钢铁数据的嵌套实体抽取问题。此外,本专利技术还基于钢铁专家知识对模型的预测结果进行修正,从而不断提高算法的准确性。通过这种方式充分利用了钢铁专家的专业知识,使得bert-crf算法在钢铁领域的实体抽取任务中表现出色。

30、4、本专利技术具有易于理解和数据可解释性高的优点,为钢铁领域的知识提取、标准分析和行业研究等应用场景提供了有力支持,为实际业务赋能,推动钢铁行业的技术创新和发展,为提升人工智能技术在钢铁行业的应用价值发挥了重要作用。

本文档来自技高网...

【技术保护点】

1.一种用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述深度学习模型为基于BERT-CRF的实体抽取模型。

3.根据权利要求1所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述深度学习模型的训练数据通过以下步骤获取:

4.根据权利要求3所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述各分词的语料标注基于领域专家知识获取。

5.根据权利要求3所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,采用jieba工具进行所述分词处理。

6.根据权利要求1所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述深度学习模型的模型参数基于领域专家知识进行修正更新。

7.根据权利要求1所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述规则模型包括嵌套实体抽取规则,基于所述嵌套实体抽取规则获取最终的嵌套实体的步骤包括:

8.根据权利要求7所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述满足非嵌套条件具体为至少满足以下条件之一:

9.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述用于钢材标准数据的复杂嵌套实体抽取方法的指令。

10.一种电子设备,其特征在于,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述用于钢材标准数据的复杂嵌套实体抽取方法的指令。

...

【技术特征摘要】

1.一种用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述深度学习模型为基于bert-crf的实体抽取模型。

3.根据权利要求1所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述深度学习模型的训练数据通过以下步骤获取:

4.根据权利要求3所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述各分词的语料标注基于领域专家知识获取。

5.根据权利要求3所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,采用jieba工具进行所述分词处理。

6.根据权利要求1所述的用于钢材标准数据的复杂嵌套实体抽取方法,其特征在于,所述深度学习模型的模型参数基于领域专家知识进...

【专利技术属性】
技术研发人员:沈海伦陈茂建于智洋彭巧娟袁钰琦仲跻炜黄子阳罗熊
申请(专利权)人:欧冶云商股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1