一种基于文本相似度改进的电网档案相似度计算方法技术

技术编号:22022791 阅读:33 留言:0更新日期:2019-09-04 01:28
本发明专利技术涉及一种基于文本相似度改进的电网档案相似度计算方法,属于文件管理技术领域。该方法包括以下步骤:S1:属性分类及相似度定义;S2:定义全属性综合相似度;S3:同义词转换;S4:获得文本相对相似度。本发明专利技术利用系统间的共有属性的数据,快速、简单、有效地得到电网档案中文本的相似度,更有利于对电网档案的管理。

A Method of Computing Power Grid Archives Similarity Based on Text Similarity Improvement

【技术实现步骤摘要】
一种基于文本相似度改进的电网档案相似度计算方法
本专利技术属于文件管理
,涉及一种基于文本相似度改进的电网档案相似度计算方法。
技术介绍
在电网的多个系统中,站线变户档案会存在多套,但数据一致性却极差,在很多时候我们需要对档案进行比对,核定其是否为同一个对象。比较两个人是否为同一个人,我们会采用诸如姓名、年龄、性别、身高、体重、地址等多个属性来进行综合判断。同样,对于电网档案我们会采用系统间的共有属性的数据是否相同或者相似来进行综合判断。但是,目前没有一种可靠有效的办法快速得到判断的结果。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于文本相似度改进的电网档案相似度计算方法。为达到上述目的,本专利技术提供如下技术方案:一种基于文本相似度改进的电网档案相似度计算方法,该方法包括以下步骤:S1:属性分类及相似度定义;S2:定义全属性综合相似度;S3:同义词转换;S4:获得文本相对相似度。进一步,所述步骤S1具体为:S11:类别属性相似度定义类别属性表示该属性所属类别,其中的数据内容能够枚举,每一个枚举值代表一个类别;由于每个类别值代表的含义不同,那么类别属性的相似度定义为:若本文档来自技高网...

【技术保护点】
1.一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:该方法包括以下步骤:S1:属性分类及相似度定义;S2:定义全属性综合相似度;S3:同义词转换;S4:获得文本相对相似度。

【技术特征摘要】
1.一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:该方法包括以下步骤:S1:属性分类及相似度定义;S2:定义全属性综合相似度;S3:同义词转换;S4:获得文本相对相似度。2.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法,其特征在于:所述步骤S1具体为:S11:类别属性相似度定义类别属性表示该属性所属类别,其中的数据内容能够枚举,每一个枚举值代表一个类别;由于每个类别值代表的含义不同,那么类别属性的相似度定义为:若类别相同,则属性相似度为1;若类别不同,则属性相似度为0;S12:数值属性相似度定义数值属性是用来量化一个属性的大小和范围的,其中的数据内容无法枚举,但能够定量描述的;由于数值属性的值无法预测,采用数值之间的绝对值差异来判断2个数据的相似度大小,数值属性的相似度定义为:MIN(||数值1|,|数值2||)/MAX(|数值1|,|数值2|)其中,|数值1|表示数值1的绝对值,MAX(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最大的那个,MIN(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最小的那个;相似度范围为0-1,若数值1与数值2相等,则相似度为1;若数值1与数值2中有一个为0,另一个不为0,则相似度为0;S13:文本属性相似度定义编辑距离定义:指两个字串之间,由一个转成另一个所需的最少编辑操作次数;许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;编辑距离越小,两个串的相似度越大;在编辑距离中,删除和插入算1次操作,替换算2次操作;操作具有可逆性,删除对应插入,替换对应替换,A文本转换成B文本的编辑距离与B文本转换成A的编辑距离相等;文本相似度包括2种形式:公式一:AB文本相似度=1-AB编辑距离/MAX(A长度,B长度)其中,若A文本为’黑石’...

【专利技术属性】
技术研发人员:孔庆波吴漾纪元杨箴吴忠王玮罗念华王鹏宇周玲曾路郭仁超龙娜缪新萍田钺
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1