一种电力设备故障缺陷文本命名实体的抽取方法及装置制造方法及图纸

技术编号:29937831 阅读:19 留言:0更新日期:2021-09-04 19:17
本发明专利技术公开了一种电力设备故障缺陷文本命名实体的抽取方法及装置,包括:获取电力设备的缺陷文本,并所述缺陷文本进行预处理,得到标准化文本数据;采用词典的方法,进行I类实体信息抽取,其中,所述I类实体信息包括:设备名、部件名、故障类型、故障等级和电压等级;采用LTP工具,进行II类实体信息抽取,其中,所述II类实体信息包括:生产时间和投运时间;采用Bert-CRF算法,进行III类实体信息抽取,其中,所述III类实体信息包括:线路名和厂家名;将所述I类实体信息、II类实体信息和III类实体信息输出,获得命名实体的抽取结果。本发明专利技术能够提供提高电力设备故障缺陷文本命名实体的抽取的准确率与效率。的准确率与效率。的准确率与效率。

【技术实现步骤摘要】
一种电力设备故障缺陷文本命名实体的抽取方法及装置


[0001]本专利技术涉及机器学习
,特别是涉及一种电力设备故障缺陷文本命名实体的抽取方法、装置、终端和存储介质。

技术介绍

[0002]在电力系统的检修与维护过程中积累了大量的故障案例,是一些与电力设备相关的半结构化和非结构化文本数据,在整个电力领域中占比高达80%以上。电力领域积累的缺陷文本蕴含着与电力设备运行状态和电网安全高度相关的关键信息,但目前只有少量文本数据得以挖掘利用。通过自然语言处理技术,可以对海量电力缺陷文本进行处理,从而挖掘出设备名、故障类型等有效故障信息,为电力系统的故障诊断、运行维护和状态检修等提供更为有效的依据和指导。
[0003]目前,现有的实体抽取方法都是采用单一的抽取方法,但是,由于电力设备实体类别繁多,特征差异大,尤其部分实体具有可扩展性,现有的方法并不能抽取电力故障缺陷文本中所有的实体。

技术实现思路

[0004]本专利技术的目的是:提供一种电力设备故障缺陷文本命名实体的抽取方法、装置、终端和存储介质,能够提供提高电力设备故障缺陷文本命名实体的抽取的准确率与效率。
[0005]为了实现上述目的,本专利技术提供了一种电力设备故障缺陷文本命名实体的抽取方法,包括:
[0006]S1、获取电力设备的缺陷文本,并针对所述缺陷文本进行预处理,得到标准化文本数据;
[0007]S2、采用词典的方法,进行I类实体信息抽取,其中,所述I类实体信息包括:设备名、部件名、故障类型、故障等级和电压等级
[0008]S3、采用LTP工具,进行II类实体信息抽取,其中,所述II类实体信息包括:生产时间和投运时间;
[0009]S4、采用Bert-CRF算法,进行III类实体信息抽取,其中,所述III类实体信息包括:线路名和厂家名;
[0010]S5、将所述I类实体信息、II类实体信息和III类实体信息输出,获得命名实体的抽取结果。
[0011]进一步地,所述S1,包括:
[0012]S11、根据预设的规则,剔除所述缺陷文本中没有实际含义的词;
[0013]S12、采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
[0014]进一步地,所述S2,包括:
[0015]S21、导入预设的词典集和所述标准化文本数据;
[0016]S22、对所述词典集中每个词典指定一类实体标签;
[0017]S23、遍历所述词典集中的所有词典;
[0018]S24、遍历当前词典中的每一个词语,并判断词语是否出现在所述标准化文本数据;若是,则将所述词语记为所述标准化文本数据的I类实体,若否,则进入S25;
[0019]S25、判断当前词典是否遍历结束,若是,则进入S26,若否,则进入S24;
[0020]S26、判断所述词典集中的所有词典是否遍历结束,若是,则结束I类实体信息抽取,若否,则进入S23。
[0021]进一步地,所述S3,包括:
[0022]S31、导入所述标准化文本数据;
[0023]S32、对所述标准化文本数据进行分词处理,并标注每一次词语的词性,获得分词处理后词语集;
[0024]S33、遍历读取所述词语集,并判断当前词语是否为时间名词,若是,则进入S34,若否,则进入S36;
[0025]S34、读取当前词语的下一个词语,并判断所述下一个词语是否为时间名词,若是,则进入S34,若否,则进入S35;
[0026]S35、将所述时间名词构成时间实体;
[0027]S36、判断所述词语集中的词语是否都遍历结束,若是,则结束II类实体信息抽取,若否,则进入S33。
[0028]进一步地,所述S4,采用如下计算公式:
[0029][0030]式中,A和B为语言模型训练得到的两个词向量,n为词向量的维度,A
i
和B
i
为每一个维度所对应的值。
[0031]本专利技术还提供一种电力设备故障缺陷文本命名实体的抽取装置,包括:数据获取模块、I类实体信息抽取模块、II类实体信息抽取模块、III类实体信息抽取模块和输出模块,其中,
[0032]所述数据获取模块,用于获取电力设备的缺陷文本,并所述缺陷文本进行预处理,得到标准化文本数据;
[0033]所述I类实体信息抽取模块,用于采用词典的方法,进行I类实体信息抽取,其中,所述I类实体信息包括:设备名、部件名、故障类型、故障等级和电压等级;
[0034]所述II类实体信息抽取模块,用于采用LTP工具,进行II类实体信息抽取,其中,所述II类实体信息包括:生产时间和投运时间;
[0035]所述III类实体信息抽取模块,用于采用Bert-CRF算法,进行III类实体信息抽取,其中,所述III类实体信息包括:线路名和厂家名;
[0036]所述输出模块,用于将所述I类实体信息、II类实体信息和III类实体信息输出,获得命名实体的抽取结果。
[0037]进一步地,所述数据获取模块,具体用于:
[0038]根据预设的规则,剔除所述缺陷文本中没有实际含义的词;
[0039]采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。
[0040]进一步地,所述III类实体信息抽取模块,采用如下计算公式:
[0041][0042]式中,A和B为语言模型训练得到的两个词向量,n为词向量的维度,A
i
和B
i
为每一个维度所对应的值。
[0043]本专利技术还提供一种计算机终端设备,包括:一个或多个处理器;存储器,与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一项所述的电力设备故障缺陷文本命名实体的抽取方法。
[0044]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的电力设备故障缺陷文本命名实体的抽取方法。
[0045]本专利技术实施例一种电力设备故障缺陷文本命名实体的抽取方法、装置、终端设备和计算机可读存储介质与现有技术相比,其有益效果在于:
[0046]本专利技术首先采用基于词典匹配的方法抽取了电力设备故障缺陷文本中的设备名、部件名、故障类型、故障等级和电压等级5类实体;其次采用LTP工具抽取了缺陷文本中的时间实体。最后采用CRF替换Bert模型的SoftMax输出层,克服了优选词标签的局部最优问题,通过采用本专利技术的方法,能够提供提高电力设备故障缺陷文本命名实体的抽取的准确率与效率。
附图说明
[0047]图1是本专利技术提供的一种电力设备故障缺陷文本命名实体的抽取方法的流程示意图;
[0048]图2是本专利技术提供的基于词典抽取I类实体信息的流程图示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力设备故障缺陷文本命名实体的抽取方法,其特征在于,包括:S1、获取电力设备的缺陷文本,并针对所述缺陷文本进行预处理,得到标准化文本数据;S2、采用词典的方法,进行I类实体信息抽取,其中,所述I类实体信息包括:设备名、部件名、故障类型、故障等级和电压等级;S3、采用LTP工具,进行II类实体信息抽取,其中,所述II类实体信息包括:生产时间和投运时间;S4、采用Bert-CRF算法,进行III类实体信息抽取,其中,所述III类实体信息包括:线路名和厂家名;S5、将所述I类实体信息、II类实体信息和III类实体信息输出,获得命名实体的抽取结果。2.根据权利要求1所述的电力设备故障缺陷文本命名实体的抽取方法,其特征在于,所述S1,包括:S11、根据预设的规则,剔除所述缺陷文本中没有实际含义的词;S12、采用正则表达式,剔除所述缺陷文本中的特殊符号,其中,所述特殊符号包括:标点符号、数字及特殊字符。3.根据权利要求1所述的电力设备故障缺陷文本命名实体的抽取方法,其特征在于,所述S2,包括:S21、导入预设的词典集和所述标准化文本数据;S22、对所述词典集中每个词典指定一类实体标签;S23、遍历所述词典集中的所有词典;S24、遍历当前词典中的每一个词语,并判断词语是否出现在所述标准化文本数据;若是,则将所述词语记为所述标准化文本数据的I类实体,若否,则进入S25;S25、判断当前词典是否遍历结束,若是,则进入S26,若否,则进入S24;S26、判断所述词典集中的所有词典是否遍历结束,若是,则结束I类实体信息抽取,若否,则进入S23。4.根据权利要求1所述的电力设备故障缺陷文本命名实体的抽取方法,其特征在于,所述S3,包括:S31、导入所述标准化文本数据;S32、对所述标准化文本数据进行分词处理,并标注每一次词语的词性,获得分词处理后词语集;S33、遍历读取所述词语集,并判断当前词语是否为时间名词,若是,则进入S34,若否,则进入S36;S34、读取当前词语的下一个词语,并判断所述下一个词语是否为时间名词,若是,则进入S34,若否,则进入S35;S35、将所述时间名词构成时间实体;S36、判断所述词语集中的词语是否都遍历结束,若是,则结束II类实体信息抽取,若否,则进入S33。5.根据权利要求1所述的电力设备故障缺陷文本命名...

【专利技术属性】
技术研发人员:陈鹏金杨邰彬杨贤汪进锋黄杨珏姚瑶
申请(专利权)人:广东电网有限责任公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1