一种用于电力行业数字化信息的查重方法及装置制造方法及图纸

技术编号:37990234 阅读:12 留言:0更新日期:2023-06-30 10:04
本发明专利技术公开了一种用于电力行业数字化信息的查重方法及装置,包括:确定电力行业数字化信息的查重目标任务项和查重范围;对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查重的相似度。辅助需求统筹人员快速从海量历史任务项中查找重复项,能够提升查重效率和准确率。率。率。

【技术实现步骤摘要】
一种用于电力行业数字化信息的查重方法及装置


[0001]本专利技术涉及人工智能
,具体涉及一种用于电力行业数字化信息的查重方法及装置。

技术介绍

[0002]随着互联网信息时代的到来,电力行业数字化项目涵盖内容越来越广,国家电网公司开展电网数字化建设十余年,积累了大量数据资产,电网数字化专项按年度开展项目储备工作,储备需求涵盖总部各部门以及公司各单位,需求量较大,依托人工进行储备需求与历史数据资产的对比查重,不能保证准确性和高效性。

技术实现思路

[0003]针对上述技术问题,本专利技术提供一种用于电力行业数字化信息的查重方法,包括:
[0004]包括:
[0005]确定电力行业数字化信息的查重目标任务项和查重范围;
[0006]对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;
[0007]由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;
[0008]通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查重的相似度。
[0009]进一步的,对所述查重目标任务项的名称和描述文本进行分词处理,包括:
[0010]结合词库所述查重目标任务项的名称和描述文本进行分词处理,统计词频和词顺序。
[0011]进一步的,所述词库,包括:通用词库、专业词库和停用词库。
[0012]进一步的,所述查重模型,根据所述查重目标任务项的名称和描述文本的长度,确定编辑距离算法Levenshtein权重和余弦相似度算法C权重;确定最长公共子序列算法LCS的权重为固定定权重。
[0013]进一步的,计算查重的相似度,包括:
[0014]将各个算法的相似度相加,获得查重的相似度sim,具体为,
[0015]sim=aC()+bL()+cLCS()
[0016]其中,a、b、c、分别对应余弦相似度算法、最长公共子序列算法和编辑距离算法的权重。
[0017]本专利技术同时提供一种用于电力行业数字化信息的查重装置,包括:
[0018]任务确定单元,用于确定电力行业数字化信息的查重目标任务项和查重范围;
[0019]分词单元,用于对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;
[0020]模型建立单元,用于由余弦相似度算法、Levenshtein算法和LCS最长公共子序列
算法构建查重模型;
[0021]查重单元,用于通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查重的相似度。
[0022]进一步的,分词单元,包括:
[0023]统计子单元,用于结合词库所述查重目标任务项的名称和描述文本进行分词处理,统计词频和词顺序。
[0024]进一步的,所述词库,包括:通用词库、专业词库和停用词库。
[0025]进一步的,所述查重模型,根据所述查重目标任务项的名称和描述文本的长度,确定编辑距离算法Levenshtein权重和余弦相似度算法C权重;确定最长公共子序列算法LCS的权重为固定权重。
[0026]进一步的,查重单元,包括:
[0027]计算子单元,用于将各个算法的相似度相加,获得查重的相似度sim,具体为,
[0028]sim=aC()+bL()+cLCS()
[0029]其中,a、b、c、分别对应余弦相似度算法、最长公共子序列算法和编辑距离算法的权重。
[0030]本专利技术提供的一种用于电力行业数字化信息的查重方法及装置,应用在电力行业数字化项目立项阶段,应用长文本对比分析、语义分析等技术,实现需求重复内容筛查。业务需求报告内容进行解析,并实现需求在基础库中的查重匹配,计算查重内容的相似度,并输出查重报告,辅助需求统筹人员快速从海量历史任务项中查找重复项,能够提升查重效率和准确率。
附图说明
[0031]图1是本专利技术提供的一种用于电力行业数字化信息的查重方法的流程示意图;
[0032]图2是本专利技术涉及的电力行业数字化信息的查重过程图
[0033]图3是本专利技术提供的一种用于电力行业数字化信息的查重装置的结构示意图。
具体实施方式
[0034]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施的限制。
[0035]图1是本专利技术提供的一种用于电力行业数字化信息的查重方法的流程示意图,下面结合图1对本专利技术提供的方法进行详细说明。
[0036]步骤S101,确定电力行业数字化信息的查重目标任务项和查重范围。
[0037]读取目标任务项,根据需求报告的文档结构,提取电力行业数字化信息的查重目标任务项,以一个任务项为“整体”,确定查重范围,用于查重。
[0038]步骤S102,对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词。
[0039]对所述查重目标任务项的名称和描述文本进行分词处理,结合通用词库、专业词库(加入系统统筹系统中已有的业务名称、功能名称(一到四级)、项目名称和子项名称)、停
用词库(通用),统计词频和词顺序(词是最小单位)。
[0040]查重目标任务项的名称+描述文本(名称和描述文本作为一个整体,区分名称主要用于短文本匹配);可研里建设内容里的章节;功能项匹配目标任务项的名称+历年建设情况。
[0041]步骤S103,由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型。
[0042]采用三种算法(不同场景下,算法的权重不同),具体如下:
[0043]1、整体相似度计算(C):余弦相似度算法C
[0044]举例:1)词频向量
[0045]传统:城北/变电站/1号/主/变/油气/监测/发现/氢气/含量/偏高/城南/一号句子A[1,1,1,1,1,1,1,1,1,1,1,0,0][0046]句子B[0,1,0,1,1,1,1,1,1,1,1,1,1][0047]余弦相似度算法:cos=(1*0+1*1+1*1+0*1+1*1+1*1+...+1*1+0*1+0*1)/「根号(1+1+1+...+0+0)*根号(0+1+0+1+...+1+1)」=9/11
[0048]2)专业
[0049]城北变电站/1号主变(一号主变)/油气/监测/发现/氢气/含量/偏高/城南变电站
[0050]句子A[1,1,1,1,1,1,1,1,1,0][0051]句子B[0,1,1,1,1,1,1,1,1,1][0052]余弦相似度算法:cos=(1*0+1*1+1*1+1*1+1*1+...+1*1+0*1)/「根号(1+1+1+...+0)*根号(0+1+1+...+1+1)」=8/9本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于电力行业数字化信息的查重方法,其特征在于,包括:确定电力行业数字化信息的查重目标任务项和查重范围;对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查重的相似度。2.根据权利要求1所述的方法,其特征在于,对所述查重目标任务项的名称和描述文本进行分词处理,包括:结合词库所述查重目标任务项的名称和描述文本进行分词处理,统计词频和词顺序。3.根据权利要求2所述的方法,其特征在于,所述词库,包括:通用词库、专业词库和停用词库。4.根据权利要求1所述的方法,其特征在于,所述查重模型,根据所述查重目标任务项的名称和描述文本的长度,确定编辑距离算法Levenshtein权重和余弦相似度算法C权重;确定最长公共子序列算法LCS的权重为固定定权重。5.根据权利要求1所述的方法,其特征在于,计算查重的相似度,包括:将各个算法的相似度相加,获得查重的相似度sim,具体为,sim=aC()+bL()+cLCS()其中,a、b、c、分别对应余弦相似度算法、最长公共子序列算法和编辑距离算法的权重。6.一种用于电力行业数字化...

【专利技术属性】
技术研发人员:申连腾李凌李哲常亮贾强翟天一底晓梦黄天航宋辰坤刘月林张军萍
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1