当前位置: 首页 > 专利查询>广西大学专利>正文

基于SF-BERT+Attention模型的电力调度领域命名实体识别方法技术

技术编号:38464928 阅读:9 留言:0更新日期:2023-08-11 14:41
本发明专利技术公开了一种基于SF

【技术实现步骤摘要】
基于SF

BERT+Attention模型的电力调度领域命名实体识别方法


[0001]本专利技术涉及电力
,特别是一种基于SF

BERT+Attention模型的电力调度领域命名实体识别方法。

技术介绍

[0002]传统的命名实体识别方法大致分为两种方向:基于规则的无监督学习和基于特征的有监督学习。Zhang提出了一种无监督的方法从生物医学文本中提取命名实体。基于规则的无监督学习方法高度依赖规则的制订,迁移性不佳,无法简单复用至其他领域。
[0003]随着机器学习的发展,基于特征的有监督学习逐渐运用于命名实体识别中。有监督学习又分为传统机器学习和深度学习的方法。Patil提出一种使用条件随机场和特征选择的方法进行命名实体识别。由于传统机器学习方法需要对特征进行选择,随着深度学习技术的发展,深度学习通过模型自动提取特征信息,能够对数据进行深度挖掘,逐渐取代传统机器学习方法,并广泛应用在各个领域。Srivastava基于词嵌入和深度学习模型对网络信息安全文本进行命名实体识别;Zhang提出一种基于预训练的中文金融领域命名实体识别模型,包含金融实体边界划分和金融实体分类两个子模型;Puccetti提供了一个基于规则、地名词典和深度学习技术的专利文本命名实体识别系统;Xu提出一种Dic

Att

BiLSTM

CRF模型,采用高效的精确字符串匹配方法将疾病实体与疾病字典进行匹配。
[0004]预训练语言模型能够获得文本的深度上下文表征,在命名实体识别上运用广泛,其中又以BERT预训练模型最为常见。Zheng提出了一种新的NER模型AttCNN

BiGRU

CRF,将基于BERT的字符嵌入和词嵌入结合起来,对电力计量数据库进行识别。He提出了一种基于渐进式多类型特征融合实体识别方法,利用BERT预处理模型得到具备上下文信息的词向量,对电力维修数据集进行命名实体识别。Tong针对电力通信规划报表文本长、信息提取效率低等问题,提出一种基于Transformer和BiLSTM

CRF模型的电力通信规划命名实体方法。
[0005]BERT含有12层网络结构,通常只使用最后一层作为文本深度上下文表征。Ganesh对BERT预训练模型每一层进行探测实验,证明BERT的底层学习到短语级别的信息表征,中层网络学习到丰富的句法特征,高层网络则学习到丰富的深度语义信息特征。Zhang提出了一种从生物医学文本中提取命名实体的无监督方法,使用句法信息提高命名实体识别的准确率。
[0006]基于深度学习的命名实体识别通常采用BIO序列标注方法,“B”表示实体名称的开始位置,“I”表示实体名称的内部位置,“O”表示非实体部分,这种标注方式使得每个实体只能被标注一次。然而,在通用领域非结构化数据中,经常会出现一个实体包含了一个小实体的情况,这被称为嵌套实体问题。Geng提出了一种平面化方式来表示嵌套命名实体,实现双向二维循环运算来学习跨度之间的语义依赖关系。Zhong等针对英文文本,将一个英文词汇切分成词根的方式,对其进行跨度序列标注,将枚举出来的候选实体接在句子后一起训练,有效提高了下游任务关系抽取的准确率。Ye等提出了一种面向邻域的打包策略,将具有相
同起始词元的跨度尽可能地打包到一个训练实例中,以更好地区分实体边界。在电力领域中,嵌套实体问题也经常出现。基于跨度表示的标注方式能够较好的解决实体嵌套问题,但是需要对句子中每个长度小于K的跨度进行枚举,当句子长度过长时,生成的候选跨度数量十分庞大,需要较长的计算时间。
[0007]随着智能电网系统的投入,在使用过程中记录了海量的调度行为信息,这些信息以非结构化形式存储,其中包含了丰富的调度行为知识。为此,需要开展对电网调度领域非结构化数据的深度挖掘,对电网调度领域经验知识进行建模,构建领域知识图谱。其中,命名实体识别(NamedEntityRecognition,NER)是自然语言处理中的一项基础任务,识别文本中具有特定意义或者指代性强的实体,包括人名、地名、专有名词等,同时也是构建知识图谱的关键技术,应用范围广泛。识别非结构化数据中的实体后,再对实体间的关系进行抽取,将实体通过关系进行连接,构建知识图谱语义网络。
[0008]可见,NER技术在电力调度领域主要存在以下困难:
[0009]1)缺乏公开的已标注的数据集。
[0010]2)电力实体专业性强,对比通用领域识别难度较大,而且电力实体存在实体嵌套等问题,例如:“35kV北龙线”包含了“35kv”和“35kv北龙线”两个实体。
[0011]3)使用序列标注的方法需要对模型进行特殊处理才能对嵌套实体进行识别。
[0012]4)与英文相比,汉语最明显的特征是词界模糊,没有分隔符来表示词界。在英语中,单词之间有分隔符来标识边界,每个单词都有完整的含义。在中文环境下进行命名实体识别需要对文本进行分词,分词器产生的分词误差,会影响命名实体识别的准确率。在电力调度领域没有权威的词典供分词器使用,通用领域分词器应用到电网领域有很大的误差。
[0013]为了解决上述问题,提出了一种新的电力调度领域实体分类方法和NER模型,以提高电力调度实体的识别效果。

技术实现思路

[0014]本专利技术的专利技术目的是,针对上述问题,提供一种基于SF

BERT+Attention模型的电力调度领域命名实体识别方法,给出一种新的电力调度领域实体分类方法和一种新的NER模型,以提高电力调度实体的识别效果。
[0015]为达到上述目的,本专利技术所采用的技术方案是:
[0016]基于SF

BERT+Attention模型的电力调度领域命名实体识别方法,包括以下内容:
[0017]步骤S1、构建电网调度领域命名实体识别数据集,采用基于跨度表示的标注方法进行标注,且当句子长度大于预设值对候选跨度进行动词词性过滤;其中,该标注方法使用jieba词性标注工具,注入电网领域词典,将电网相关词汇标注为非动词;
[0018]步骤S2、电力调度领域命名实体识别模型训练,包括以下内容:
[0019]编码层进行编码处理程序,将词性过滤后的数据以字符为单位经过编码层编码,得到上下文表征信息;
[0020]BERT预训练模型训练程序,采用BERT预训练模型处理上下文表征信息,获得深层上下文语义信息;
[0021]Transformer模型提取程序,采用并行机制抽取BERT预训练模型中间层输出并拼接成句法向量,使用Transformer模型编码结构进行编码处理获得中层句法信息;
[0022]特征融合程序,将深层上下文语义信息和中层句法信息进行融合,获得融合信息;
[0023]步骤S3、结果预测,通过全连接层处理融合信息,得到预测的实体消息。
[0024]其中,步骤S1中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SF

BERT+Attention模型的电力调度领域命名实体识别方法,其特征在于,包括以下内容:步骤S1、构建电网调度领域命名实体识别数据集,采用基于跨度表示的标注方法进行标注,且当句子长度大于预设值对候选跨度进行动词词性过滤;步骤S2、电力调度领域命名实体识别模型训练,包括以下内容:编码层进行编码处理程序,将词性过滤后的数据以字符为单位经过编码层编码,得到上下文表征信息;BERT预训练模型训练程序,采用BERT预训练模型处理上下文表征信息,获得深层上下文语义信息;Transformer模型提取程序,采用并行机制抽取BERT预训练模型中间层输出并拼接成句法向量,使用Transformer模型编码结构进行编码处理获得中层句法信息;特征融合程序,将深层上下文语义信息和中层句法信息进行融合,获得融合信息;步骤S3、结果预测,通过全连接层处理融合信息,得到预测的实体消息。2.根据权利要求1所述的基于SF

BERT+Attention模型的电力调度领域命名实体识别方法,其特征在于:所述步骤S1中,该标注方法使用jieba词性标注工具,注入电网领域词典,将电网相关词汇标注为非动词。3.根据权利要求1所述的基于SF

BERT+Attention模型的电力调度领域命名实体识别方法,其特征在于:所述步骤S1中,该标注方法要对句子中每个长度小于K的跨度进行枚举,对句子S={s1,s2,...,s
n
},生成候选跨度集如下:其中n为句子的总长度,候选跨度集包含候选跨度的开始和结束位置在句子中的索引值,候选跨度的长度K设置为12。4.根据权利要求1所述的基于SF

BERT+Attention模型的电力调度领域命名实体识别方法,其特征在于:所述步骤S2中,编码层嵌入处理计算式如下:X
smbedding
=X
word
+X
segment
+X
positional
#(1)。5.根据权利要求1所述的基于SF

BERT+Attention模型的电力调度领域命名实体识别方法,其特征在于:所述步骤S2中,深层上下文语义信息获取流程具体如下:分别获取跨度集跨度开始位置和结束位置经过训练后的表征,具体计算式如下:h
start
=H
12
[:,s
start
]#(2)h
end
=H
12
[:,S
end
]#(3);分别获取跨度开始和结束位置前后一个偏移量经过训练后的表征,具体计算式如下:h
front
=H
12
[:,S
start<...

【专利技术属性】
技术研发人员:张希翔蒙琦董贇艾徐华黄汉华周迪贵古哲德覃宁陶思恒孟椿智谢菁谭期文韦宗慧宁梓宏孟春辰陈燕林德沼
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1