一种电力知识实体识别方法、装置、设备和介质制造方法及图纸

技术编号:30334769 阅读:18 留言:0更新日期:2021-10-10 00:59
本发明专利技术公开了一种电力知识实体识别方法、装置、设备和介质,方法包括:获取初始电力知识序列;根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体,从而提高知识实体识别的可移植性与识别效率。可移植性与识别效率。可移植性与识别效率。

【技术实现步骤摘要】
一种电力知识实体识别方法、装置、设备和介质


[0001]本专利技术涉及实体识别
,尤其涉及一种电力知识实体识别方法、装置、设备和介质。

技术介绍

[0002]随着科技的不断发展,电力知识也随之增多,且涉及面广,来源复杂。变电站的电力从业人员除了需要掌握传统教科书的基本知识外,更多的是从日常工作中根据接触到的法规、技术文件和建设方案进行学习。
[0003]而该类知识实体的提取,实际上是电力领域的文本挖掘。但与一般的文本挖掘不同的是,由于电力行业涉及的文本类型多种多样,可能来自不同的部门、不同的职位、不同的设备等,因此在考虑确定问题需求的初始阶段时,需要基于电力知识专家对文本类型进行内容分析。
[0004]现有的知识实体的提取或识别方法通常是基于规则和字典的方法,通过依赖于专业语言学家预先设计的规则模式,通过字符串搜索和匹配来实现实体识别。但上述方法容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别。

技术实现思路

[0005]本专利技术提供了一种电力知识实体识别方法、装置、设备和介质,解决了现有的知识命名实体识别容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别的技术问题。
[0006]本专利技术第一方面提供的一种电力知识实体识别方法,包括:
[0007]获取初始电力知识序列;
[0008]根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;
[0009]按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;
[0010]将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
[0011]根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体。
[0012]可选地,所述根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列的步骤,包括:
[0013]比较所述初始电力知识序列的当前字符长度和预设字符长度;
[0014]若所述当前字符长度大于所述预设字符长度,则以所述初始电力知识序列内的预定标识为起点增加空白字符;
[0015]若所述当前字符长度小于所述预设字符长度,则在所述初始电力知识序列的最后
增加所述空白字符;
[0016]当所述当前字符长度等于所述预设字符长度时,将当前时刻的所述初始电力知识序列确定为标准电力知识序列。
[0017]可选地,所述文本字符字典存有多组字符

数值映射关系;所述按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量的步骤,包括:
[0018]遍历所述标准电力知识序列,得到多个字符;
[0019]按照所述字符

数值映射关系,确定每个所述字符所对应的字符数值;
[0020]采用一位有效编码方式对每个字符数值进行编码,得到各个所述字符对应的文本特征向量。
[0021]可选地,所述将所述文本特征向量输入预设的命名实体识别模型,生成对应的实体标签的步骤,包括:
[0022]将各个所述文本特征向量输入预设的命名实体识别模型;所述命名实体识别模型包括依次连接的嵌入层、第一特征提取层、第二特征提取层和输出层;
[0023]通过所述嵌入层将所述文本特征向量映射为低维向量,并输入至所述第一特征提取层;
[0024]通过所述第一特征提取层提取所述低维向量的数据特征向量,并将所述数据特征向量输入至所述第二特征提取层;
[0025]通过所述第二特征提取层按照时序对所述数据特征向量进行特征提取,得到两组待拼接特征,并拼接所述两组待拼接特征,得到目标特征;
[0026]通过所述输出层计算所述目标特征对应的初始标签,并对各所述初始标签的加权分类后,生成所述文本特征向量对应的实体标签。
[0027]可选地,所述输出层包括条件随机场层、全连接层和分类层;所述通过所述输出层计算所述目标特征对应的多个初始标签,并对各所述初始标签的加权分类后,生成所述文本特征向量对应的实体标签的步骤,包括:
[0028]通过所述条件随机场层计算所述目标特征对应的多个初始标签;
[0029]通过所述全连接层采用预设的权重矩阵对各个所述初始标签进行加权,得到多个加权结果;
[0030]通过所述分类层将所述多个加权结果分别转换为概率结果;
[0031]通过所述分类层选择最大的所述概率结果所对应的初始标签,确定为所述文本特征向量对应的实体标签。
[0032]可选地,所述根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体的步骤,包括:
[0033]根据所述实体标签与所述文本特征向量的关联关系,确定所述文本特征向量关联的所述字符对应的实体标签;
[0034]按照所述实体标签对所述标准电力知识序列进行划分,得到多个电力知识实体。
[0035]可选地,所述方法还包括:
[0036]获取多组训练序列;每组所述训练序列包括多个训练实体;
[0037]采用预设的实体标识规则对每个训练实体进行标识,得到由多个目标训练实体组成的目标训练序列;
[0038]按照预设的文本字符字典,将每个所述目标训练实体分别转换为训练特征向量;
[0039]采用所述训练特征向量训练预设的初始命名实体识别模型,得到目标命名实体识别模型。
[0040]本专利技术第二方面还提供了一种电力知识实体识别装置,包括:
[0041]初始电力知识序列获取模块,用于获取初始电力知识序列;
[0042]序列调整模块,用于根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;
[0043]字符转换模块,用于按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;
[0044]实体标签确定模块,用于将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
[0045]电力知识实体提取模块,用于根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体。
[0046]本专利技术第三方面还提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本专利技术第一方面任一项所述的电力知识实体识别方法的步骤。
[0047]本专利技术第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术第一方面任一项所述的电力知识实体识别方法。
[0048]从以上技术方案可以看出,本专利技术具有以下优点:...

【技术保护点】

【技术特征摘要】
1.一种电力知识实体识别方法,其特征在于,包括:获取初始电力知识序列;根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体。2.根据权利要求1所述的方法,其特征在于,所述根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列的步骤,包括:比较所述初始电力知识序列的当前字符长度和预设字符长度;若所述当前字符长度大于所述预设字符长度,则以所述初始电力知识序列内的预定标识为起点增加空白字符;若所述当前字符长度小于所述预设字符长度,则在所述初始电力知识序列的最后增加所述空白字符;当所述当前字符长度等于所述预设字符长度时,将当前时刻的所述初始电力知识序列确定为标准电力知识序列。3.根据权利要求1所述的方法,其特征在于,所述文本字符字典存有多组字符

数值映射关系;所述按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量的步骤,包括:遍历所述标准电力知识序列,得到多个字符;按照所述字符

数值映射关系,确定每个所述字符所对应的字符数值;采用一位有效编码方式对每个字符数值进行编码,得到各个所述字符对应的文本特征向量。4.根据权利要求1所述的方法,其特征在于,所述将所述文本特征向量输入预设的命名实体识别模型,生成对应的实体标签的步骤,包括:将各个所述文本特征向量输入预设的命名实体识别模型;所述命名实体识别模型包括依次连接的嵌入层、第一特征提取层、第二特征提取层和输出层;通过所述嵌入层将所述文本特征向量映射为低维向量,并输入至所述第一特征提取层;通过所述第一特征提取层提取所述低维向量的数据特征向量,并将所述数据特征向量输入至所述第二特征提取层;通过所述第二特征提取层按照时序对所述数据特征向量进行特征提取,得到两组待拼接特征,并拼接所述两组待拼接特征,得到目标特征;通过所述输出层计算所述目标特征对应的初始标签,并对各所述初始标签的加权分类后,生成所述文本特征向量对应的实体标签。5.根据权利要求4所述的方法,其特征在于...

【专利技术属性】
技术研发人员:江疆彭伟峰杨秋勇黄声勇王海明梁盈威
申请(专利权)人:广东电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1