【技术实现步骤摘要】
一种基于动态多级匹配的大规模文献机构消歧方法
[0001]本专利技术涉及数据挖掘
,具体涉及一种基于动态多级匹配的大规模文献机构消歧方法
。
技术介绍
[0002]目前国内外科技文献数据量呈指数增长,机构名称是科技文献中描述科研实体的重要信息,不仅是文献检索
、
知识导航的重要入口,也是判断科研机构学术影响力
、
机构竞争力的重要统计单元
。
然而,原始的文献数据中很多机构名称存在变体
、
误拼等情况给机构的准确识别带来很大困难,利用现代计算机技术分析这些文献数据实现机构名称消歧并自动将文献数据按机构分类及统计具有非常大的现实意义
。
[0003]通常文献机构名称存在两种主要的歧义情况:变体,即两种不同的表示实属同一个机构;误拼,即存在机构名称的拼写错误
。
传统上通过单次的字符匹配计算得到两者的相似距离,虽然这种方法有一定的效果,但是还不够精确并且计算时间复杂度太大,无法在真实场景使用
。
[000 ...
【技术保护点】
【技术特征摘要】
1.
一种基于动态多级匹配的大规模文献机构消歧方法,其特征在于,所述方法包括:从文献数据库中获取大规模文献机构原始数据;按照字段处理模板对所述文献机构原始数据进行处理,并将处理得到的特征字段集按照预设格式文件进行存储后生成消歧原始数据;建立多级匹配层,所述多级匹配层中的每个匹配层均包括重复识别单元和相似识别单元;调度所述消歧原始数据,根据所述多级匹配层对所述消歧原始数据进行识别,若满足当前匹配层中所述重复识别单元和所述相似识别单元的预设条件,输出当前匹配层的机构合并组;以当前匹配层的机构合并组作为下一匹配层的输入数据进行识别,以此类推,直至所述多级匹配层迭代完成,输出机构合并结果;接入预设存储格式,以所述预设存储格式对所述机构合并结果中的消歧结果进行管理
。2.
如权利要求1所述的方法,其特征在于,所述方法还包括:设置字段处理模板,其中,所述字段处理模板包括字符抽取单元
、
字符消除单元和字段转换单元;利用所述字符抽取单元对所述文献机构原始数据进行特征字段抽取,将抽取得到的特征字段输入字符消除单元进行空格和特殊字符进行消除处理,将消除处理后的特征字段输入字段转换单元进行小写转换,输出所述特征字段集
。3.
如权利要求1所述的方法,其特征在于,所述多级匹配层中的第一匹配层包括;获取预合并组,其中,所述预合并组为相同机构名称的合并结果,且每个合并组带有不相同的标识信息;将所述预合并组输入所述第一匹配层中的重复识别单元对所述预合并组进行地域重复性识别,获取所属相同地域的组别;再将所属相同地域的组别输入所述第一匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似区间的组别进行合并,输出第一机构合并结果
。4.
如权利要求3所述的方法,其特征在于,所述多级匹配层的第二匹配层包括:将所述第一机构合并结果输入所述第二匹配层的重复识别单元中进行邮编字段重复性识别,获取所属相同邮编字段的组别;再将所属相同邮编字段的组别输入所述第二匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似度组别进行合并,输出第二机构合并结果
。5.
如权利要求4所述的方法,其特征在于,所述多级匹配层的第三匹配层包括:将所述第二机构合并结果输入所述第三匹配层的重复识别单元中进行前后名称重复性识别,获取前后名称相同的组别;再将前后名称相...
【专利技术属性】
技术研发人员:于倩倩,董智鹏,刘峥,邓彩虹,张建勇,
申请(专利权)人:中国科学院文献情报中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。