【技术实现步骤摘要】
基于分段加权相似度匹配算法的机构名称归一化方法
[0001]本专利技术涉及归一化处理方法
,具体涉及一种基于分段加权相似度匹配算法的 机构名称归一化方法。
技术介绍
[0002]数据是企事业机构审计管理、挖掘决策的关键资产,但是由于种种原因,如主观性差 异、数据录入错误、异源融合等,产生了大量不一致的数据,为知识提取造成了很大的障 碍。为了解决相同机构存在多名称记录的问题,机构名称匹配和归一化就变得十分重要。
[0003]其中以科研机构名称为例,科研机构名称作为科研机构的标识,具有非常特殊的意义。 然而,科研机构名称常见的用法包括规范名称、曾用名、译名、合并名称、附属独立名称 等等。其中规范名称也叫全称,通常是指依据国家标准规范等由权威机构发布的某一机构 实体的名称;非规范名称是指同一机构的多种变异名称,包括不限于简称、中文简繁体名 称、多语言译称、错误名称、曾用名或其它别称等。
[0004]科研机构名称归一化是进行相关基础数据统计和进一步的数据挖掘的前置工作,其主 要目标为将科研机构各种变异名称映射到其全称,并用全称替换变异名称。
[0005]科研机构名称归一化的传统做法为建立全称与变异名称之间的对应关系,形成映射 表,使用映射表匹配替换方式,达到机构名归一化的目的。但该方法有多种不足,首先, 需要人工维护大量映射关系;其次,每次出现新变异名都需要添加映射关系,没有自动适 配能力;最后,映射表难于穷举所有的变异名称,尤其对错别名称难以预防。所以有研究 者在映射表的基础上引入了相似度计算 ...
【技术保护点】
【技术特征摘要】
1.一种基于分段加权相似度匹配算法的机构名称归一化方法,其特征在于,包括以下步骤:步骤一、构建表征机构单位性质的特征词库为P
i
,将机构名称按照层次分级,每个机构名称至少由一级机构名称组成,构建机构的一级机构名称知识库为R
j
,构建机构的全称知识库为L
k
,其中全称知识库L
k
结构为<preGroup>
+
<name><postOrg>,preGroup为上级机构名称,记为L
k
.<preGroup>,postOrg为机构后缀,记为L
k
.<postOrg>;步骤二、遍历特征词库P
i
中的特征词对样本S进行分割为如全称知识库L
k
的结构:S=<preGroup>
+
<name><postOrg>;步骤三、如果样本S未被分割出上级机构名称<preGroup>,则计算<name,R
j
>的编辑距离矩阵,在一级机构名称知识库R
j
中寻找与<name>有相同前缀的一级机构名称R
j
,且选择其中有相同前缀最长的一级机构名称R
j
作为样本S的上级机构名称<preGroup>;步骤四、如果分割后的样本S存在机构后缀<preGroup>,则先遍历计算<preGroup,R
j
>和<preGroup,L
k
.<preGroup>>的编辑距离和相似度;再计算样本S中剩下的<name>部分和全称知识库L
k
中的<name>部分的相似度;步骤五、根据相似度大小,选定最终的归一化全称;如样本S中未分割出一级机构名称,则直接以样本S和全称知识...
【专利技术属性】
技术研发人员:沈沛,毛海涛,周圣林,林典雄,焦鹏,胡文林,张柱柱,刘军,张旸,刘宇麟,芮波,
申请(专利权)人:中国人民解放军九二七二八部队,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。