电力技术标准差异条款识别方法、系统及可读存储介质技术方案

技术编号:38141043 阅读:8 留言:0更新日期:2023-07-08 09:55
本发明专利技术公开了电力技术标准差异条款识别方法、装置、计算机设备及计算机可读存储介质,属于电力数据分析处理技术领域。本发明专利技术的一种电力技术标准差异条款识别方法,对电力技术标准条款进行预处理,得到归类电力技术标准条款数据;基于依存句法对归类电力技术标准条款数据进行提取,得到归类电力技术标准条款数据的实体关系三元组;对实体关系三元组进行处理,得到知识图谱;对知识图谱进行差异分析,得到条款差异分析结果;根据条款差异分析结果,完成电力技术标准差异条款的识别,方案科学、合理,能够有效解决如何寻找条款差异的问题。同时采用实体关系三元组的形式表示电力标准条款,解决了标准条款内容句式复杂,粒度太大不容易进行差异分析的问题。容易进行差异分析的问题。容易进行差异分析的问题。

【技术实现步骤摘要】
电力技术标准差异条款识别方法、系统及可读存储介质


[0001]本专利技术涉及电力技术标准差异条款识别方法、装置、计算机设备及计算机可读存储介质,属于电力数据分析处理


技术介绍

[0002]当前,电力行业国家标准包括设备产品资料和电力运检技术标准等国家标准信息对实现电力行业生产运行工作标准化和程序化具有重要的指导作用,实施电力标准可以有效避免因电力企业员工的个体差异从而产生相同工作存在质量差异的现象,另外电力标准也可以保证我国电力企业的安全生产。
[0003]并且,由于目前多数电力企业不同专业领域的标准基本由专业分头制定,缺乏有序的协调统一,经常出现标准条款内容交叉重复矛盾的问题,导致基层人员在生产工作执行过程中无所适从。通过定期意见征集、专家评审、标准实施阶段反馈等被动模式收集标准内容,不仅周期长、任务繁重、效率低,还存在收集不全面造成结果随机性较大的缺点,由于标准数量庞大难以做到差异化条款全覆盖。因此,实现标准差异条款的智能分析技术变得越来越重要。
[0004]进一步,中国专利(公布号:CN 113962219A)公开了面向电力变压器知识检索和问答的语义匹配方法及系统,属于电力变压器设备
现有的语义匹配方法,很难准确识别基层运检人员检索/问答语义,影响基层运检人员的运检效率。上述专利技术的面向电力变压器知识检索和问答的语义匹配方法,通过构建基于小样本变压器问句模板的语料增强模型,并结合变压器知识图谱以及近义词库,实现变压器语料文本的增强以及数据增强;然后利用变压器语料数据以及人工神经网络技术,训练形成一体化识别模型;再通过一体化识别模型在语料基础上实现对用户查询意图和槽位的联合识别。
[0005]上述方案能准确识别用户检索/问答语义,有效提高用户的运检效率,但在差异分析方面,国家标准条款数据,内容冗长、句式复杂,若直接利用上述方案很难判断出标准差异条款。

技术实现思路

[0006]针对现有技术的缺陷,本专利技术提供一种电力技术标准差异条款识别方法、装置、计算机设备及计算机可读存储介质,以解决上述问题。
[0007]为实现上述目的,本专利技术的第一种技术方案为:
[0008]一种电力技术标准差异条款识别方法,包括以下步骤:
[0009]第一步,对电力技术标准条款进行预处理,得到归类电力技术标准条款数据;
[0010]第二步,基于依存句法对归类电力技术标准条款数据进行提取,得到归类电力技术标准条款数据的实体关系三元组;
[0011]第三步,对实体关系三元组进行处理,得到知识图谱;
[0012]第四步,对知识图谱进行差异分析,得到条款差异分析结果;
[0013]第五步,对条款差异分析结果进行识别,得到识别结果。
[0014]本专利技术经过不断探索以及试验,对电力技术标准条款进行预处理,得到归类电力技术标准条款数据;基于依存句法对归类电力技术标准条款数据进行提取,得到归类电力技术标准条款数据的实体关系三元组;对实体关系三元组进行处理,得到知识图谱;对知识图谱进行差异分析,得到条款差异分析结果;根据条款差异分析结果,完成电力技术标准差异条款的识别,方案科学、合理,能够有效解决如何寻找条款差异的问题。
[0015]进一步,本专利技术利用基于依存句法分析的开放式中文实体关系抽取方法,采用实体关系三元组的形式表示电力标准条款,解决了标准条款内容句式复杂,粒度太大不容易进行差异分析的问题;利用知识图谱存储数据,减少了数据查询以及数据处理的时间,解决了标准条款数据数量巨大的问题;最后利用自然语言处理的文本相似度计算模型来计算三元组相似度,解决了如何寻找条款差异的问题。
[0016]作为优选技术措施:所述第一步中,对电力技术标准条款进行预处理的方法如下:
[0017]步骤A1:根据电力技术标准条款词汇特点,建立停用词表;
[0018]步骤A2:根据停用词表,屏蔽对于聚类分类有干扰的关键字,得到聚类标准条款;
[0019]步骤A3:对聚类标准条款进行归类,得到归类标准条款;
[0020]步骤A4:利用正则表达式匹配的方法,去除归类标准条款中的异常数据,得到归类电力技术标准条款数据。
[0021]作为优选技术措施:停用词表包括细则、技术、规程、技术规程以及评价用词中的至少一种。
[0022]作为优选技术措施:所述第二步中,基于依存句法对归类电力技术标准条款数据进行提取的方法如下:
[0023]步骤B1:利用分词方法对归类电力技术标准条款数据进行分词,得到词汇分词结果;
[0024]步骤B2:对步骤B1的词汇分词结果进行词性标注,获得词汇标注结果;
[0025]步骤B3:采用依存句法分析方法对步骤B1中的词汇分词结果和步骤B2的词汇标注结果进行分析,得到词汇与词汇之间的相互依存关系;
[0026]步骤B4:根据步骤B3中的相互依存关系,以谓语动词为核心判断词汇在句中所存在的依存关系,得到词汇依存结果;所述依存关系为主谓关系或动宾关系或动补结构;
[0027]步骤B5:根据步骤B4中的词汇依存结果,抽取事实三元组,得到实体关系的三元组。
[0028]作为优选技术措施:所述第三步中,对实体关系三元组进行处理的方法如下:
[0029]步骤C1:从若干实体关系的三元组中抽取第一数量的三元组;
[0030]步骤C2:根据步骤C1中第一数量的三元组,创建第一数量的新的实体关系;
[0031]步骤C3:根据步骤C2中的第一数量的新的实体关系,建立知识图谱。
[0032]作为优选技术措施:所述第四步中,对知识图谱进行差异分析的方法如下:
[0033]步骤D1:构建相似度计算单元,用于计算自然语言中短语句子间的相似度;
[0034]步骤D2:利用相似度计算单元对知识图谱中的第一数量的新的实体关系进行差异计算,得到三元组间的相似度;
[0035]步骤D3:根据步骤D2中的三元组间的相似度,得到相应电力技术标准条款的差异
度,从而获得条款差异分析结果。
[0036]作为优选技术措施:相似度的计算方法如下:
[0037]对于一对实体关系的三元组,当其中两个位置的相似度达到第一阈值,并且第三个位置相似度达到第二阈值,则确定该对实体关系的三元组具有相似关系且并不完全相同;第一阈值大于第二阈值。
[0038]为实现上述目的,本专利技术的第二种技术方案为:
[0039]一种电力技术标准差异条款识别装置,其包括:数据预处理模块、三元组抽取模块、知识图谱构建模块、差异条款分析模块;
[0040]数据预处理模块,用于对初始的电力标准条款进行处理,为后续模块准备数据;
[0041]三元组抽取模块,用于利用文本分词、词性标注和依存句法分析方法抽取实体关系的三元组;
[0042]知识图谱构建模块,用于利用提取出来的三元组进行图谱的构建,并构建一个新的关系,以方便计算三元组的相似度;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力技术标准差异条款识别方法,其特征在于,包括以下步骤:第一步,对电力技术标准条款进行预处理,得到归类电力技术标准条款数据;第二步,基于依存句法对归类电力技术标准条款数据进行提取,得到归类电力技术标准条款数据的实体关系三元组;第三步,对实体关系三元组进行处理,得到知识图谱;第四步,对知识图谱进行差异分析,得到条款差异分析结果;第五步,对条款差异分析结果进行识别,得到识别结果。2.如权利要求1所述的一种电力技术标准差异条款识别方法,其特征在于,所述第一步中,对电力技术标准条款进行预处理的方法如下:步骤A1:根据电力技术标准条款词汇特点,建立停用词表;步骤A2:根据停用词表,屏蔽对于聚类分类有干扰的关键字,得到聚类标准条款;步骤A3:对聚类标准条款进行归类,得到归类标准条款;步骤A4:利用正则表达式匹配的方法,去除归类标准条款中的异常数据,得到归类电力技术标准条款数据。3.如权利要求2所述的一种电力技术标准差异条款识别方法,其特征在于,停用词表包括细则、技术、规程、技术规程以及评价用词中的至少一种。4.如权利要求1所述的一种电力技术标准差异条款识别方法,其特征在于,所述第二步中,基于依存句法对归类电力技术标准条款数据进行提取的方法如下:步骤B1:利用分词方法对归类电力技术标准条款数据进行分词,得到词汇分词结果;步骤B2:对步骤B1的词汇分词结果进行词性标注,获得词汇标注结果;步骤B3:采用依存句法分析方法对步骤B1中的词汇分词结果和步骤B2的词汇标注结果进行分析,得到词汇与词汇之间的相互依存关系;步骤B4:根据步骤B3中的相互依存关系,以谓语动词为核心判断词汇在句中所存在的依存关系,得到词汇依存结果;所述依存关系为主谓关系或动宾关系或动补结构;步骤B5:根据步骤B4中的词汇依存结果,抽取事实三元组,得到实体关系的三元组。5.如权利要求1所述的一种电力技术标准差异条款识别方法,其特征在于,所述第三步中,对实体关系三元组进行处理的方法如下:步骤C1:从若干实体关系的三元组中抽取第一数量的三元组;步骤C2...

【专利技术属性】
技术研发人员:蔺家骏许飞雍怡博姜文东成敬周王剑张兴辉王思宁郑倩王军赵雪骞孙振高晓欣姜海东张涛孙丽丽谢欢
申请(专利权)人:国网浙江省电力有限公司北京中电普华信息技术有限公司国网信息通信产业集团有限公司国网北京市电力公司国家电网有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1