基于SF-BERT+Attention模型的电力调度领域命名实体识别方法技术

技术编号：38464928 阅读：9 留言：0更新日期：2023-08-11 14:41

本发明专利技术公开了一种基于SF

全部详细技术资料下载

【技术实现步骤摘要】
基于SF
‑
BERT+Attention模型的电力调度领域命名实体识别方法

[0001]本专利技术涉及电力
，特别是一种基于SF
‑
BERT+Attention模型的电力调度领域命名实体识别方法。

技术介绍

[0002]传统的命名实体识别方法大致分为两种方向：基于规则的无监督学习和基于特征的有监督学习。Zhang提出了一种无监督的方法从生物医学文本中提取命名实体。基于规则的无监督学习方法高度依赖规则的制订，迁移性不佳，无法简单复用至其他领域。
[0003]随着机器学习的发展，基于特征的有监督学习逐渐运用于命名实体识别中。有监督学习又分为传统机器学习和深度学习的方法。Patil提出一种使用条件随机场和特征选择的方法进行命名实体识别。由于传统机器学习方法需要对特征进行选择，随着深度学习技术的发展，深度学习通过模型自动提取特征信息，能够对数据进行深度挖掘，逐渐取代传统机器学习方法，并广泛应用在各个领域。Srivastava基于词嵌入和深度学习模型对网络信息安全文本进行命名实体识别；Zhang提出一种基于预训练的中文金融领域命名实体识别模型，包含金融实体边界划分和金融实体分类两个子模型；Puccetti提供了一个基于规则、地名词典和深度学习技术的专利文本命名实体识别系统；Xu提出一种Dic
‑
Att
‑
BiLSTM
‑
CRF模型，采用高效的精确字符串匹配方法将疾病实体与疾病字典进行匹配。
[0004]预训练语言模型...

【技术保护点】

【技术特征摘要】
1.一种基于SF
‑
BERT+Attention模型的电力调度领域命名实体识别方法，其特征在于，包括以下内容：步骤S1、构建电网调度领域命名实体识别数据集，采用基于跨度表示的标注方法进行标注，且当句子长度大于预设值对候选跨度进行动词词性过滤；步骤S2、电力调度领域命名实体识别模型训练，包括以下内容：编码层进行编码处理程序，将词性过滤后的数据以字符为单位经过编码层编码，得到上下文表征信息；BERT预训练模型训练程序，采用BERT预训练模型处理上下文表征信息，获得深层上下文语义信息；Transformer模型提取程序，采用并行机制抽取BERT预训练模型中间层输出并拼接成句法向量，使用Transformer模型编码结构进行编码处理获得中层句法信息；特征融合程序，将深层上下文语义信息和中层句法信息进行融合，获得融合信息；步骤S3、结果预测，通过全连接层处理融合信息，得到预测的实体消息。2.根据权利要求1所述的基于SF
‑
BERT+Attention模型的电力调度领域命名实体识别方法，其特征在于：所述步骤S1中，该标注方法使用jieba词性标注工具，注入电网领域词典，将电网相关词汇标注为非动词。3.根据权利要求1所述的基于SF
‑
BERT+Attention模型的电力调度领域命名实体识别方法，其特征在于：所述步骤S1中，该标注方法要对句子中每个长度小于K的跨度进行枚举，对句子S＝{s1，s2，...，s
n
}，生成候选跨度集如下：其中n为句子的总长度，候选跨度集包含候选跨度的开始和结束位置在句子中的索引值，候选跨度的长度K设置为12。4.根据权利要求1所述的基于SF
‑
BERT+Attention模型的电力调度领域命名实体识别方法，其特征在于：所述步骤S2中，编码层嵌入处理计算式如下：X
smbedding
＝X
word
+X
segment
+X
positional
#(1)。5.根据权利要求1所述的基于SF
‑
BERT+Attention模型的电力调度领域命名实体识别方法，其特征在于：所述步骤S2中，深层上下文语义信息获取流程具体如下：分别获取跨度集跨度开始位置和结束位置经过训练后的表征，具体计算式如下：h
start
＝H
12
[：，s
start
]#(2)h
end
＝H
12
[：，S
end
]#(3)；分别获取跨度开始和结束位置前后一个偏移量经过训练后的表征，具体计算式如下：h
front
＝H
12
[：，S
start<...

【专利技术属性】
技术研发人员：张希翔，蒙琦，董贇，艾徐华，黄汉华，周迪贵，古哲德，覃宁，陶思恒，孟椿智，谢菁，谭期文，韦宗慧，宁梓宏，孟春辰，陈燕，林德沼，
申请(专利权)人：广西大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人