【技术实现步骤摘要】
一种用于电力行业数字化信息的查重方法及装置
[0001]本专利技术涉及人工智能
,具体涉及一种用于电力行业数字化信息的查重方法及装置。
技术介绍
[0002]随着互联网信息时代的到来,电力行业数字化项目涵盖内容越来越广,国家电网公司开展电网数字化建设十余年,积累了大量数据资产,电网数字化专项按年度开展项目储备工作,储备需求涵盖总部各部门以及公司各单位,需求量较大,依托人工进行储备需求与历史数据资产的对比查重,不能保证准确性和高效性。
技术实现思路
[0003]针对上述技术问题,本专利技术提供一种用于电力行业数字化信息的查重方法,包括:
[0004]包括:
[0005]确定电力行业数字化信息的查重目标任务项和查重范围;
[0006]对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;
[0007]由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;
[0008]通过所述查重模型,将所述分词在查重范围内进 ...
【技术保护点】
【技术特征摘要】
1.一种用于电力行业数字化信息的查重方法,其特征在于,包括:确定电力行业数字化信息的查重目标任务项和查重范围;对所述查重目标任务项的名称和描述文本进行分词处理,获取所述名称和描述文本对应的分词;由余弦相似度算法、Levenshtein算法和LCS最长公共子序列算法构建查重模型;通过所述查重模型,将所述分词在查重范围内进行查重匹配,并计算查重的相似度。2.根据权利要求1所述的方法,其特征在于,对所述查重目标任务项的名称和描述文本进行分词处理,包括:结合词库所述查重目标任务项的名称和描述文本进行分词处理,统计词频和词顺序。3.根据权利要求2所述的方法,其特征在于,所述词库,包括:通用词库、专业词库和停用词库。4.根据权利要求1所述的方法,其特征在于,所述查重模型,根据所述查重目标任务项的名称和描述文本的长度,确定编辑距离算法Levenshtein权重和余弦相似度算法C权重;确定最长公共子序列算法LCS的权重为固定定权重。5.根据权利要求1所述的方法,其特征在于,计算查重的相似度,包括:将各个算法的相似度相加,获得查重的相似度sim,具体为,sim=aC()+bL()+cLCS()其中,a、b、c、分别对应余弦相似度算法、最长公共子序列算法和编辑距离算法的权重。6.一种用于电力行业数字化...
【专利技术属性】
技术研发人员:申连腾,李凌,李哲,常亮,贾强,翟天一,底晓梦,黄天航,宋辰坤,刘月林,张军萍,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。