System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种电力二次工作安全措施票命名实体识别方法及相关装置制造方法及图纸_技高网

一种电力二次工作安全措施票命名实体识别方法及相关装置制造方法及图纸

技术编号:41408103 阅读:8 留言:0更新日期:2024-05-20 19:34
本发明专利技术公开了一种电力二次工作安全措施票命名实体识别方法及相关装置,方法包括:获取目标二次工作安全措施票;利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用ELECTRA模型构建而成;利用预训练好的ALBERT模型对所述分词结果进行实体识别,得到命名实体识别结果;其中命名实体识别结果至少包括目标二次工作安全措施票文档中的关键实体。将专业名词按照词典格式写入词典中用于分词模型,然后采用ALBERT模型处理分词后的序列,提高了中文命名实体识别准确率。

【技术实现步骤摘要】

本专利技术涉及一种电力二次工作安全措施票命名实体识别方法及相关装置,属于目标跟踪。


技术介绍

1、二次工作安全措施票是检修作业前隔离待检修设备的核心依据,票面数据的准确性关系这二次安措工作的准确进行。当前基于深度学习的自然语义处理基础的发展为机器自动校对工作安全措施票文本提供了可能,其前提在于如何将工作安全措施票非结构化或半结构化文本进行拆解及组织,以便于形成程序方便组织管理的对象,即以文本元素对象表示二次安措中的实体、动作、事件及其之间的关系;其难点在于对文本信息的抽取,包括命名实体识别,它从数据源中抽取出具有特定意义或指代性强的实体,并基于实体建立内在联系。

2、从非结构化文本中识别出与电力专业领域相关的实体名称,并将它们归类到预定义类别,如线路类型、电压等级、工作内容、安全措施等,是按错票数据挖掘与信息抽取的关键步骤,这一任务称工作安全措施票文本的命名实体识别。与英文文本的命名实体识别相比,中文文本的命名实体识别问题更具有挑战性。主要原因是现场安措编写的票面信息经常使用不规范的缩写,并且大多数实体有多种书写形式。目前大多数电力领域操作票的命名实体识别方法主要是基于字的bilstm-crf和cnn-crf算法模型,并利用汉字和电力专业词汇等特征,来提升识别的性能。但是,由于循环神经网络(recurrent neural network,rnn)无法并行计算,当句子中的某个字符与词典中的多个词组有关时,rnn模型通常难以做出判断。


技术实现思路

1、目的:鉴于以上技术问题中的至少一项,本专利技术提供一种电力二次工作安全措施票命名实体识别方法及相关装置,用于实现电力二次工作安全措施票命名中文本的命名实体识别。

2、本专利技术采用的技术方案为:

3、第一方面,本专利技术提供了一种电力二次工作安全措施票命名实体识别方法,包括:

4、获取目标二次工作安全措施票;

5、利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用electra模型构建而成;

6、利用预训练好的albert模型对所述分词结果进行实体识别,得到命名实体识别结果;其中命名实体识别结果至少包括目标二次工作安全措施票文档中的关键实体。

7、在一些实施例中,所述electra模型包括一个生成器和一个判别器;所述分词模型的获取方法包括:

8、获取电力安全措施相关的专业名词;其中所述专业名词包括电力领域的术语或常用词汇;

9、将所述专业名词按照词典格式写入词典中;

10、利用所述词典训练electra模型或将词典加载进electra模型中,对模型进行优化,得到预训练好的分词模型。

11、在一些实施例中,所述词典格式包括:

12、词汇名称,词频,词性。

13、在一些实施例中,所述关键实体包括设备名称、操作步骤、安全措施、地点、时间。

14、在一些实施例中,所述预训练好的albert模型的获取方法包括:

15、获取带有实体标注的训练数据集;

16、使用所述训练数据集对albert模型进行训练,得到预训练好的albert模型。

17、进一步地,获取带有实体标注的数据集,包括:

18、获取分词结果数据集,其中所述分词结果数据集中的分词结果通过电力领域分词模型得到;

19、对所述分词结果数据集中的文本进行实体标注,得到标注数据;

20、将标注数据转化为符合albert模型输入的数据格式,得到带有实体标注的数据集。

21、更进一步地,对所述分词结果数据集中的文本进行实体标注,包括:利用开源工具occano对文本进行实体标注;

22、和/或,将标注数据转化为符合albert模型输入的数据格式,包括:

23、利用bmes四位序列标注法、bio三位序列标注法或bioes四位序列标注法将标注数据进行转化。

24、第二方面,本专利技术提供了一种电力二次工作安全措施票命名实体识别装置,包括:

25、获取模块,被配置为:获取目标二次工作安全措施票;

26、分词模块,被配置为:利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用electra模型构建而成;

27、识别模块,被配置为:利用预训练好的albert模型对所述分词结果进行实体识别,得到命名实体识别结果;其中命名实体识别结果至少包括目标二次工作安全措施票文档中的关键实体。

28、第三方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

29、第四方面,本专利技术提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。

30、第五方面,本专利技术提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述方法的步骤。

31、有益效果:本专利技术提供的电力二次工作安全措施票命名实体识别方法及相关装置,具有以下优点:本文在针对工作安全措施票中存在大量嵌套实体,导致命名实体识别准确率较低的问题,首先,利用electra模型构建中文工作安全措施票文本分词预处理模型,获取丰富的词性信息,学习丰富的语言特征,结合额外的规则算,来将专业名词按照词典格式写入词典中,用于训练新的分词模型或将词典加载进分词模型中,对electra模型进行优化;利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;然后采用albert模型处理分词后的序列,避免长距离依赖带来的误差,得到命名实体识别结果。

本文档来自技高网...

【技术保护点】

1.一种电力二次工作安全措施票命名实体识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述ELECTRA模型包括一个生成器和一个判别器;所述分词模型的获取方法包括:

3.根据权利要求2所述的方法,其特征在于,所述词典格式包括:

4.根据权利要求1所述的方法,其特征在于,所述关键实体包括设备名称、操作步骤、安全措施、地点、时间。

5.根据权利要求1所述的方法,其特征在于,所述预训练好的ALBERT模型的获取方法包括:

6.根据权利要求5所述的方法,其特征在于,获取带有实体标注的数据集,包括:

7.根据权利要求6所述的方法,其特征在于,对所述分词结果数据集中的文本进行实体标注,包括:利用开源工具occano对文本进行实体标注;

8.一种电力二次工作安全措施票命名实体识别装置,其特征在于,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种电力二次工作安全措施票命名实体识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述electra模型包括一个生成器和一个判别器;所述分词模型的获取方法包括:

3.根据权利要求2所述的方法,其特征在于,所述词典格式包括:

4.根据权利要求1所述的方法,其特征在于,所述关键实体包括设备名称、操作步骤、安全措施、地点、时间。

5.根据权利要求1所述的方法,其特征在于,所述预训练好的albert模型的获取方法包括:

6.根据权利要求5所述的方法,其特征在于,获取带有实体...

【专利技术属性】
技术研发人员:王业黄翔任旭超李萍李佑伟朱鹏宇赵晓伟高云云
申请(专利权)人:国网江苏省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1