一种用于电力行业数字化信息的查重方法及装置制造方法及图纸

技术编号:37990234 阅读:27 留言:0更新日期:2023-06-30 10:04
本发明专利技术公开了一种用于电力行业数字化信息的查重方法及装置,包括:确定电力行业数字化信息的查重目标任务项和查重范围;对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查重的相似度。辅助需求统筹人员快速从海量历史任务项中查找重复项,能够提升查重效率和准确率。率。率。

【技术实现步骤摘要】
一种用于电力行业数字化信息的查重方法及装置


[0001]本专利技术涉及人工智能
,具体涉及一种用于电力行业数字化信息的查重方法及装置。

技术介绍

[0002]随着互联网信息时代的到来,电力行业数字化项目涵盖内容越来越广,国家电网公司开展电网数字化建设十余年,积累了大量数据资产,电网数字化专项按年度开展项目储备工作,储备需求涵盖总部各部门以及公司各单位,需求量较大,依托人工进行储备需求与历史数据资产的对比查重,不能保证准确性和高效性。

技术实现思路

[0003]针对上述技术问题,本专利技术提供一种用于电力行业数字化信息的查重方法,包括:
[0004]包括:
[0005]确定电力行业数字化信息的查重目标任务项和查重范围;
[0006]对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;
[0007]由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;
[0008]通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于电力行业数字化信息的查重方法,其特征在于,包括:确定电力行业数字化信息的查重目标任务项和查重范围;对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查重的相似度。2.根据权利要求1所述的方法,其特征在于,对所述查重目标任务项的名称和描述文本进行分词处理,包括:结合词库所述查重目标任务项的名称和描述文本进行分词处理,统计词频和词顺序。3.根据权利要求2所述的方法,其特征在于,所述词库,包括:通用词库、专业词库和停用词库。4.根据权利要求1所述的方法,其特征在于,所述查重模型,根据所述查重目标任务项的名称和描述文本的长度,确定编辑距离算法Levenshtein权重和余弦相似度算法C权重;确定最长公共子序列算法LCS的权重为固定定权重。5.根据权利要求1所述的方法,其特征在于,计算查重的相似度,包括:将各个算法的相似度相加,获得查重的相似度sim,具体为,sim=aC()+bL()+cLCS()其中,a、b、c、分别对应余弦相似度算法、最长公共子序列算法和编辑距离算法的权重。6.一种用于电力行业数字化...

【专利技术属性】
技术研发人员:申连腾李凌李哲常亮贾强翟天一底晓梦黄天航宋辰坤刘月林张军萍
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1