基于分段加权相似度匹配算法的机构名称归一化方法技术

技术编号:34465026 阅读:17 留言:0更新日期:2022-08-10 08:37
本发明专利技术公开了一种基于分段加权相似度匹配算法的机构名称归一化方法,对样本S进行分割为如全称知识库L

【技术实现步骤摘要】
基于分段加权相似度匹配算法的机构名称归一化方法


[0001]本专利技术涉及归一化处理方法
,具体涉及一种基于分段加权相似度匹配算法的 机构名称归一化方法。

技术介绍

[0002]数据是企事业机构审计管理、挖掘决策的关键资产,但是由于种种原因,如主观性差 异、数据录入错误、异源融合等,产生了大量不一致的数据,为知识提取造成了很大的障 碍。为了解决相同机构存在多名称记录的问题,机构名称匹配和归一化就变得十分重要。
[0003]其中以科研机构名称为例,科研机构名称作为科研机构的标识,具有非常特殊的意义。 然而,科研机构名称常见的用法包括规范名称、曾用名、译名、合并名称、附属独立名称 等等。其中规范名称也叫全称,通常是指依据国家标准规范等由权威机构发布的某一机构 实体的名称;非规范名称是指同一机构的多种变异名称,包括不限于简称、中文简繁体名 称、多语言译称、错误名称、曾用名或其它别称等。
[0004]科研机构名称归一化是进行相关基础数据统计和进一步的数据挖掘的前置工作,其主 要目标为将科研机构各种变异名称映射到其全称,并用全称替换变异名称。
[0005]科研机构名称归一化的传统做法为建立全称与变异名称之间的对应关系,形成映射 表,使用映射表匹配替换方式,达到机构名归一化的目的。但该方法有多种不足,首先, 需要人工维护大量映射关系;其次,每次出现新变异名都需要添加映射关系,没有自动适 配能力;最后,映射表难于穷举所有的变异名称,尤其对错别名称难以预防。所以有研究 者在映射表的基础上引入了相似度计算来自动匹配机构的全称与变异名称,该类方法简单 有效,能很好的适应新增变异名称和错别名称。其核心原理在于计算两个字符串间的相似 度。
[0006]目前常用的相似度计算方法有向量空间距离、统计关联、基于词频统计、编辑距离和 基于k

means等等。其中,基于编辑距离的相似度是被广泛使用的技术之一。但传统的基 于编辑距离的度量方法,由于变异名称和全称长度不一且权重难以选择;另外,中文以“词
”ꢀ
作为基本表意单位,而原始方法则是以“字符”作为基本编辑操作单位,这也影响了其在 实际应用中的表现,尤其是在科研机构名称匹配中。
[0007]编辑距离(Minimum Edit Distance,MED)是用来度量两个序列的相似程度,于1965 年由Vladimir Levenshtein提出,也称Levenshtein Distance(简称LD)。编辑距离通过 计算从一个字符串转换到另一个字符串所需要的最少单字符编辑操作次数来定义字符串 间距离。假设两个字符串<S1,S2>的编辑距离为D,则其相似度定义为:
[0008]Sim=1

D/max(len(S1),len(S2))
[0009]Sim越靠近1,相似度越大。

技术实现思路

[0010]本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
[0011]基于以上问题,本专利技术提出了一种中文科研机构名称匹配算法,即分段加权相似度匹 配算法。该算法通过全称结构分段、中文分词、编辑操作权重调整及剪枝优化等措施,对 原编辑距离算法进行了改进优化。
[0012]本专利技术提出一种基于分段加权相似度匹配算法的机构名称归一化方法,包括以下步 骤:
[0013]步骤一、构建表征机构单位性质的特征词库为P
i
,将机构名称按照层次分级,每个机 构名称至少由一级机构名称组成,构建机构的一级机构名称知识库为R
j
,构建机构的全 称知识库为L
k
,其中全称知识库L
k
结构为<preGroup>
+
<name><postOrg>,preGroup 为上级机构名称,记为L
k
.<preGroup>,postOrg为机构后缀,记为L
k
.<postOrg>;
[0014]步骤二、遍历特征词库P
i
中的特征词对样本S进行分割为如全称知识库L
k
的结构: S=<preGroup>
+
<name><postOrg>;
[0015]步骤三、如果样本S未被分割出上级机构名称<preGroup>,则计算<name,R
j
>的编 辑距离矩阵,在一级机构名称知识库R
j
中寻找与<name>有相同前缀的一级机构名称R
j
, 且选择其中有相同前缀最长的一级机构名称R
j
作为样本S的上级机构名称<preGroup>;
[0016]步骤四、如果分割后的样本S存在机构后缀<preGroup>,则先遍历计算<preGroup,R
j
> 和<preGroup,L
k
.<preGroup>>的编辑距离和相似度;再计算样本S中剩下的<name>部 分和全称知识库L
k
中的<name>部分的相似度;
[0017]步骤五、根据相似度大小,选定最终的归一化全称;如样本S中未分割出一级机构名 称,则直接以样本S和全称知识库L
k
整体比较,取全称知识库L
k
中相似度最大的机构全称 名作为归一化后的机构全称。
[0018]优选的,相似度计算公式为:
[0019][0020]其中,S表示需要归一化的样本名称,L表示语料知识库中科研机构的标准全称,n表 示L是由n级机构名称组成,S
i
表示S中第i级机构,L
i
表示L中第i级机构,当S中不存 在第i级机构名称,即S
i
为空,则Sim<S
i
,L
i
>=0,w
i
表示每个机构相似度的计算权重。
[0021]优选的,在机构全称的层次上,将不可分割的机构名称定义为原子机构名称,对于有 两级以上的机构名称,每一级都作为一个原子机构名称。
[0022]优选的,对原子机构名称进行分词,分词后的名称由地名、专有名词、行业名称、特 征词、后缀特征词组成。
[0023]优选的,构建机构全称知识库L
k
,每条机构全称记录都包含以下属性:“全称”、“前 身”、“上层机构”、“行业”、“简称”、“内部代码”、“主营业务”。
[0024]优选的,所述步骤三中,如果没有找到有相同前缀的一级机构名称R
j
,则说明样本S 确实不包含上级机构名称;如果寻找到一个或多个有相同前缀的一级机构名称R
j
,则选 取包含与<name>有相同前缀最长的一级机构名称R
j
作为样本S的上级机构名称。
[0025]本专利技术至少包括以下有益效果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分段加权相似度匹配算法的机构名称归一化方法,其特征在于,包括以下步骤:步骤一、构建表征机构单位性质的特征词库为P
i
,将机构名称按照层次分级,每个机构名称至少由一级机构名称组成,构建机构的一级机构名称知识库为R
j
,构建机构的全称知识库为L
k
,其中全称知识库L
k
结构为<preGroup>
+
<name><postOrg>,preGroup为上级机构名称,记为L
k
.<preGroup>,postOrg为机构后缀,记为L
k
.<postOrg>;步骤二、遍历特征词库P
i
中的特征词对样本S进行分割为如全称知识库L
k
的结构:S=<preGroup>
+
<name><postOrg>;步骤三、如果样本S未被分割出上级机构名称<preGroup>,则计算<name,R
j
>的编辑距离矩阵,在一级机构名称知识库R
j
中寻找与<name>有相同前缀的一级机构名称R
j
,且选择其中有相同前缀最长的一级机构名称R
j
作为样本S的上级机构名称<preGroup>;步骤四、如果分割后的样本S存在机构后缀<preGroup>,则先遍历计算<preGroup,R
j
>和<preGroup,L
k
.<preGroup>>的编辑距离和相似度;再计算样本S中剩下的<name>部分和全称知识库L
k
中的<name>部分的相似度;步骤五、根据相似度大小,选定最终的归一化全称;如样本S中未分割出一级机构名称,则直接以样本S和全称知识...

【专利技术属性】
技术研发人员:沈沛毛海涛周圣林林典雄焦鹏胡文林张柱柱刘军张旸刘宇麟芮波
申请(专利权)人:中国人民解放军九二七二八部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1