System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及相似度计算,尤其涉及一种中文标准多维度相似度计算方法。
技术介绍
1、标准作为生产经营活动的基础和市场规则的重要组成部分,其一致性和权威性至关重要。日益凸显的标准的交叉重复和矛盾现象,为标准的管理和实施带来诸多的问题,一方面给产品质量的控制造成了闭拢,另一方面,对国家建立统一的市场规则带来阻碍,在现行的国家标准、行业标准和地方标准中,仅仅名称相同的标准就非常多。有些标准在技术指标上存在不一致甚至冲突的情况,为了解决标准交叉重复和矛盾问题,提高标准的一致性和可操作性,有必要对标准相似度的计算方法进行研究,提出一种能够准确衡量标准之间的相似程度的方法,为标准管理和应用提供科学依据和指导,促进标准化工作的协调发展。
2、文本相似度测评方面已经形成了一系列代表性的研究成果,根据相似度计算方法,大致可分为基于统计的方法和基于语义的方法,具体如表1所列。前者依赖设定的规则横梁句子之间的相似度,如句子对之间最长公共子串的长度、句子对之间重叠词的长度、句子对之间的编辑距离等等,计算简答快速,但无法理解与利用文本的语义信息。后者在计算句子对之间的相似度时,将句子对映射到统一的向量空间以捕捉句子的语义信息,并根据向量之间的距离衡量相似度,如sentence-bert利用bert得到句子的语义表示后,在训练阶段,使用softmax层得到标量值作为句子对的相似度得分,在推理阶段,选择余弦距离来比较两个句子嵌入之间的相似度。在对句子对嵌入向量的距离测评上,余弦距离、欧式距离、测地线距离等均是常用的衡量方式,但由于句子嵌入表示维度
3、表1 文本相似度测评常用方法
4、
技术实现思路
1、本专利技术的目的在于提供一种中文标准多维度相似度计算方法,从而解决现有技术中存在的前述问题。
2、为了实现上述目的,本专利技术采用的技术方案如下:
3、一种中文标准多维度相似度计算方法,包括如下步骤,
4、s1、按照中文标准文件中要素的特征,将中文标准文件中的要素分为枚举型数据和文本型数据;所述枚举型数据为按一定序列顺序列举的数据项;所述文本型数据为叙述性文本表述的数据项;各要素依据其所属的数据类型采用相应的计算方式计算两个中文标准文件间各要素的相似度值;
5、s2、当计算两个中文标准文件的相似度值时,基于各要素的权重值以及各要素的相似度值,计算两个中文标准文件的相似度值;当从多个中文标准文件中筛选出与样本文件最相似的中文标准文件时,基于各必备要素的权重值以及各必备要素的相似度值,计算样本文件与各中文标准文件的相似度值,并将最大相似度值对应的中文标准文件作为与样本文件最相似的中文标准文件。
6、优选的,所述要素包括资料性要素和规范性要素,
7、资料性要素包括封面、目次、前言、引言、规范性引用文件、参考文献、索引;其中,封面、前言为必备要素,其他为可选要素;
8、规范性要素包括范围、术语和定义、符号和缩略语、分类和编码/系统构成、总体原则和/或总体要求、核心技术、其他技术;其中,范围、核心技术为必备要素,其他为可选要素。
9、优选的,当要素为枚举型数据时,两个中文标准文件间该要素的相似度值为,
10、(1)
11、其中,为当要素为枚举型数据时,两个中文标准文件间要素的相似度值;和分别为中文标准文件1和中文标准文件2中要素拆分为具体的数据项集合;为中文标准文件1和中文标准文件2在要素下相同数据项的数量。
12、优选的,对于枚举型数据,中文标准文件的引用文件或术语中,存在其中一个文件引用另一个文件的情形,将被引用文件称为母文件,
13、当引用母文件时,引用文件及被引用文件间要素的相似度值为,
14、(2)
15、当引用母文件术语时,引用文件及被引用文件间要素的相似度值为,
16、 (3)
17、其中,为当引用母文件时,引用文件及被引用文件间要素的相似度值;为引用母文件术语时,引用文件及被引用文件间要素的相似度值。
18、优选的,当要素为文本型数据时,两个中文标准文件间该要素的相似度值为,
19、 (4)
20、 (5)
21、 (6)
22、其中,为当要素为文本型数据时,两个中文标准文件间要素的相似度值;为两个中文标准文件间要素的语义相似度值;为两个中文标准文件间要素的字符相似度值;和分别为中文标准文件1和中文标准文件2中要素对应的语义表示,为的转置,和分别为向量和的模长;和分别为中文标准文件1和中文标准文件2中要素对应的具体内容;为和的总要素数量;为和的相同的要素数量。
23、优选的,由于中文标准文件中
技术实现思路
包括多个章节,在计算两个中文标准文件间
技术实现思路
的相似度值时,首先利用公式5计算两个中文标准文件中章节与章节的相似度值,为中文标准文件1中每个章节匹配到中文标准文件2中最相关的章节作为相应章节的相似度值,并利用所有章节匹配后得到的平均相似度值作为两个中文标准间
技术实现思路
的相似度值,公式如下,
24、 (7)
25、其中,为两个中文标准文件间技术项内容t的相似度值;为中文标准文件1中的章节数量;和分别为两个中文标准文件中的两个
技术实现思路
的相应章节;为章节和之间的相似度。
26、优选的,步骤s2中,当计算两个中文标准文件的相似度时,采用层次分析法按照1-9标度两两要素间的重要性进行比较,综合打分构成比较矩阵,计算出各要素的第一权重值;并采用下式计算两个中文标准文件间的相似度值,
27、(8)
28、其中,为中文标准文件1和中文标准文件2间的相似度值;为中文标准文件1中的要素数量;为中文标准文件2中的要素数量;为中文标准文件1和中文标准文件2之间的共有要素数量;为要素对应的相似度值;为要素对应的权重值。
29、优选的,步骤s2中,当从多个中文标准文件中筛选出与样本文件最相似的中文标准文件时, 采用层次分析法确定各必备要素的权重值;并采用下式计算样本文件与各中文标准文件间的相似度值,
30、(9)
31、其中,为样本文件与中文标准文件1~x的相似度值;为必备要素对应的权重,,为必备要素的数量;为样本文件与中文标准文件1~x在必备要素上的相似度值。
32、本专利技术的有益效果是:1、本专利技术方法根据标准特征构建了标准相似度评价指标体系,结合自然语言处理技术,从余弦相似度、字符相似度等角度量化标准指标项之间的相似值,建立的标准相似度计算法实现了相似中文标准文件的自动筛选,能够有效提高标准数据库质量。2、本专利技术方法能够实现中文标准文件之间的自动比对,快速识别出相同或相似的标准内容,为标准化工作的推进和应用提供科学依据和指导。
本文档来自技高网...【技术保护点】
1.一种中文标准多维度相似度计算方法,其特征在于:包括如下步骤,
2.根据权利要求1所述的中文标准多维度相似度计算方法,其特征在于:所述要素包括资料性要素和规范性要素,
3.根据权利要求1所述的中文标准多维度相似度计算方法,其特征在于:当要素为枚举型数据时,两个中文标准文件间该要素的相似度值为,
4.根据权利要求3所述的中文标准多维度相似度计算方法,其特征在于:对于枚举型数据,中文标准文件的引用文件或术语中,存在其中一个文件引用另一个文件的情形,将被引用文件称为母文件,
5.根据权利要求1所述的中文标准多维度相似度计算方法,其特征在于:当要素为文本型数据时,两个中文标准文件间该要素的相似度值为,
6.根据权利要求5所述的中文标准多维度相似度计算方法,其特征在于:由于中文标准文件中技术内容包括多个章节,在计算两个中文标准文件间技术内容的相似度值时,首先利用公式5计算两个中文标准文件中章节与章节的相似度值,为中文标准文件1中每个章节匹配到中文标准文件2中最相关的章节作为相应章节的相似度值,并利用所有章节匹配后得到的平均相似度
7.根据权利要求1所述的中文标准多维度相似度计算方法,其特征在于:步骤S2中,当计算两个中文标准文件的相似度时,采用层次分析法按照1-9标度两两要素间的重要性进行比较,综合打分构成比较矩阵,计算出各要素的第一权重值;并采用下式计算两个中文标准文件间的相似度值,
8.根据权利要求7所述的中文标准多维度相似度计算方法,其特征在于:步骤S2中,当从多个中文标准文件中筛选出与样本文件最相似的中文标准文件时, 采用层次分析法确定各必备要素的权重值;并采用下式计算样本文件与各中文标准文件间的相似度值,
...【技术特征摘要】
1.一种中文标准多维度相似度计算方法,其特征在于:包括如下步骤,
2.根据权利要求1所述的中文标准多维度相似度计算方法,其特征在于:所述要素包括资料性要素和规范性要素,
3.根据权利要求1所述的中文标准多维度相似度计算方法,其特征在于:当要素为枚举型数据时,两个中文标准文件间该要素的相似度值为,
4.根据权利要求3所述的中文标准多维度相似度计算方法,其特征在于:对于枚举型数据,中文标准文件的引用文件或术语中,存在其中一个文件引用另一个文件的情形,将被引用文件称为母文件,
5.根据权利要求1所述的中文标准多维度相似度计算方法,其特征在于:当要素为文本型数据时,两个中文标准文件间该要素的相似度值为,
6.根据权利要求5所述的中文标准多维度相似度计算方法,其特征在于:由于中文标准文件中技术内容包括多个章节,在计算两个中...
【专利技术属性】
技术研发人员:汉鹏武,侯景,邓晓梅,
申请(专利权)人:中国科学院空间应用工程与技术中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。