电力标准命名实体识别方法技术

技术编号:42687321 阅读:45 留言:0更新日期:2024-09-10 12:35
公开了一种电力标准命名实体识别方法,方法中,对电力标准文本进行预处理操作获得输入文本;建立电力术语词典,并对词典进行词向量转化;基于BERT预训练模型将输入文本中的每个字转化为字级词嵌入向量;利用电力术语词典对输入文本进行分词操作,得到的词级词嵌入向量与字级词嵌入向量进行拼接得到输入向量;将输入向量通过BiLSTM网络进行上下文信息的学习,预测出每一个字属于不同标签的概率;利用CRF的转移矩阵规范标签之间的规则与相关性,输出该句的最佳输出序列作为预测结果。

【技术实现步骤摘要】

本专利技术涉及电气工程,尤其涉及一种电力标准命名实体识别方法


技术介绍

1、电力行业高质量发展与数字化转型工作的重要性逐步凸显,这对电力标准的数字化转型研究提出新的需求,也为电力标准的管理、实施和监督带来了新的挑战和机遇。电力领域作为社会经济发展的重要支撑,其术语和专有名词具有很高的特定性和复杂性,传统的基于规则与特征工程的命名实体识别方法在处理电力领域的标准文档时存在识别准确率低、术语难分割、依赖专家经验的局限性。

2、利用动态交联高分子的网络拓扑重排的特性有望为数据加密带来新方案。但目前关于利用动态交联高分子的动态特性实现光学加密的方法聚焦于通过外界刺激动态网络以达到记录加密图案的作用。在解密环节则没有利用到动态网络的动态性能,解密环节过于简单,存在信息失效的风险。

3、在
技术介绍
部分中公开的上述信息仅仅用于增强对本专利技术背景的理解,因此可能包含不构成本领域普通技术人员公知的现有技术的信息。


技术实现思路

1、针对现有技术中的不足,本专利技术的目的是提供一种电力标准命名实体识别本文档来自技高网...

【技术保护点】

1.一种电力标准命名实体识别方法,其特征在于,其包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,优选的,所述步骤1中的预处理操作包括:对电力标准文本采用句划分方法对数据集进行采集;对标准结构划分与标准内容解析后,提取多类命名实体进行数据集标注得到标签数据;对标签数据采用BIO序列标注法对数据集进行字序列的标注,并按比例划分训练集、验证集与测试集。

3.根据权利要求2所述的方法,其特征在于,提取10类命名实体进行数据集标注得到标签数据,10类命名实体包括电力设备、设备部件、试验、故障、措施、性能要求、物理参量、测量量、数值和引用。>

4.根据权利...

【技术特征摘要】

1.一种电力标准命名实体识别方法,其特征在于,其包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,优选的,所述步骤1中的预处理操作包括:对电力标准文本采用句划分方法对数据集进行采集;对标准结构划分与标准内容解析后,提取多类命名实体进行数据集标注得到标签数据;对标签数据采用bio序列标注法对数据集进行字序列的标注,并按比例划分训练集、验证集与测试集。

3.根据权利要求2所述的方法,其特征在于,提取10类命名实体进行数据集标注得到标签数据,10类命名实体包括电力设备、设备部件、试验、故障、措施、性能要求、物理参量、测量量、数值和引用。

4.根据权利要求3所述的方法,其特征在于,所述标签数据分为两列:text&label,其中tex...

【专利技术属性】
技术研发人员:董明贺馨仪黄建平李钟煦韩嘉佳孙歆颜拥姚影
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1