基于多标识体系的学者信息对齐方法及系统技术方案

技术编号:45086947 阅读:27 留言:0更新日期:2025-04-25 18:24
本发明专利技术公开了一种基于多标识体系的学者信息对齐方法及系统,属于信息技术领域。本发明专利技术为解决多种学者ID、成果ID和机构ID共存情况下的数据匹配与关联问题,采用基于ID关联关系库的跨标识体系数据映射、余弦算法比对学者姓名与机构名称,以及提取成果领域关键词的技术手段,实现学者信息精确对齐、跨标识体系数据关联和高效数据匹配。本发明专利技术提高了学者信息的一致性和匹配精度,增强了数据互通性。

【技术实现步骤摘要】

本专利技术属于信息,尤其涉及基一种基于多标识体系的学者信息对齐方法及系统


技术介绍

1、随着大数据、区块链等技术的发展,数字标识技术解决数字资源永久存储与重复利用等问题的能力越来越受到业界的广泛共识和认可。各科研机构、数据中心、存储库均开始建立学者库、成果库,并开始创建并使用学术成果id(简称成果id),例如doi、cstr;科研机构id(简称机构id),例如ror、grid;学者数字身份id(简称学者id),例如orcid,对学者及对应学术成果进行标识和管理。

2、然而,尽管各数据库开始建立学者id,但由于各数据库之间数据孤岛问题日渐严重,基于学者姓名、机构的比对方式缺点日益显著,已有学者数据信息无法得到再次利用,各个科研机构主要依赖学者自行填报。此方法在为学者带来负担的同时,数据无法实现及时更新,为后续管理评价带来隐患。


技术实现思路

1、本专利技术的目的在于提供一种基于多标识体系的学者信息对齐方法及系统,在学者id、成果id和机构id等多标识体系共存的情况下,实现跨标识体系的标识数据关联,解决多种学者id间的学者信息对齐问题。

2、本专利技术为实现上述目的采用了以下技术方案:

3、一种基于多标识体系的学者信息对齐方法,包括以下步骤:

4、1)基于成果id对齐学者成果数据;

5、2)对学者数据进行清洗和补充;

6、3)判断待匹配数据中是否存在学者id;

7、若待匹配数据中不存在学者id,则通过id关联关系库查询是否存在关联id;若查询到同类型的学者id且学者id一致,则判定为同一学者,合并学者信息并更新学者别名与机构别名列表;若未查询到同类型的学者id或查询到的学者id不一致,则进行步骤4)处理;

8、若待匹配数据中存在学者id,则判断学者id是否一致;若学者id一致,则合并学者信息并更新学者别名与机构别名列表,否则进行步骤4)处理;

9、4)使用余弦算法比对学者标准姓名、机构标准名称和成果领域关键词,根据学者标准姓名、机构标准名称是否一致,以及成果领域关键词差异值是否小于预设阈值,来判断是否同一学者;

10、5)当判定为同一学者后,对学者数据进行进一步清洗和补充,并将不同的姓名和机构作为别名处理,更新相关数据库。

11、进一步地,步骤1)中基于成果id对齐学者成果数据的步骤包括:

12、(1)判断学者信息中是否存在成果id,若存在,则判断id类型,否则进行步骤(3)处理;

13、(2)若成果id类型一致,则判断成果id是否一致;若成果id一致,进一步比对成果元数据是否一致,若据一致,则判定为同一条数据,更新成果信息,否则进行步骤(3)处理;若成果id不一致,则进行步骤(3)处理;

14、若成果id类型不一致,则通过id关联关系库进行id类型映射;若映射成功,则将不同类型id转换为统一类型后重新比对id一致性,若映射失败,则进行步骤(3)处理;

15、(3)使用余弦算法比对成果标题、作者、机构和成果领域关键词,若数据差异值小于阈值,则判定为同一数据,否则判定为不同数据;

16、(4)对判定为同一数据的条目进行字段合并,更新成果标准库。

17、进一步地,步骤(4)中进行字段合并包括合并成果id、成果标题、作者信息、作者机构和成果领域关键词。

18、进一步地,步骤2)和5)中对学者数据进行清洗和补充的步骤包括:

19、(1)对学者信息进行格式清洗和标准化映射;

20、(2)检查机构id是否存在于机构标准库中,若存在,则进行匹配并补充机构标准名称、所在国家及机构别名列表;若不存在,则查找id关联关系库中是否有匹配的其他类型id;

21、若匹配,则转换为同类型id并补充到机构标准库中,否则使用余弦算法比对机构名称、学者姓名及成果数据;若数据差异值小于阈值,则判定为同一数据,补充机构标准名称、所在国家及机构别名列表,否则判定为不同数据;

22、(3)根据已有信息补充学者的国籍与所在国家,若缺失则通过学者所在机构的国家进行补充;

23、(4)根据学者所在国家的官方语言生成标准姓名,并将其他姓名形式作为别名存入别名列表;

24、(5)基于机构标准库生成机构的标准名称,并将非标准形式存入机构别名列表;

25、(6)合并并补充学者的成果数据,生成完整的学者成果列表;

26、(7)将学者信息中其他类型的学者id存入学者其他id列表,并建立学者id与其他id之间的关联关系,并存入id关联关系库中;

27、(8)将学者成果中涉及的学者名称和机构名称更新到别名列表中;

28、(9)从学者成果中提取关键词,形成成果领域关键词列表。

29、进一步地,步骤(9)中使用tf-idf算法从学者成果中提取关键词。

30、进一步地,步骤4)中根据学者标准姓名、机构标准名称是否一致,以及成果领域关键词差异值是否小于预设阈值,来判断是否同一学者,包括以下步骤:

31、(1)若学者标准姓名、机构标准名称一致,且成果领域关键词差异值小于阈值,则判定为同一学者;

32、(2)若学者标准姓名、机构标准名称一致,且成果领域关键词差异值不小于阈值,则基于余弦算法比对学者成果元数据字段,若数据差异值小于设定阈值,则判定为同一学者,否则判定为不同学者;

33、(3)若学者标准姓名、机构标准名称不一致,且成果领域关键词差异值小于阈值,则比对语种是否一致,若语种不一致,则调整为同一语种后返回到步骤(1)重新比对;

34、(4)若学者标准姓名、机构标准名称不一致,且成果领域关键词差异值不小于阈值,则判定为不同学者。

35、进一步地,步骤5)中更新相关数据库包括更新学者标准库、成果标准库和机构标准库。

36、一种基于多标识体系的学者信息对齐系统,包括:

37、存储服务器:用于存储学者标准库、成果标准库、机构标准库、id关联关系库和待匹配库,提供数据存储和管理功能;

38、业务服务器:包括以下模块:

39、数据处理模块:用于数据清洗、数据提取和数据查询;

40、系统管理模块:用于字典项管理、权限管理和日志管理;

41、关联关系模块:用于建立和更新学者、成果、机构数据之间的关联关系,并构建知识图谱;

42、应用服务器:包括以下模块:

43、标识查询模块:用于查询学者id及其关联的学者姓名、机构和相关成果;

44、学者查询模块:用于查询学者的基本信息、成果和所属机构;

45、机构查询模块:用于查询机构的基本信息及其下属学者和成果;

46、成果查询模块:用于查询学术成果的相关学者、机构及领域信息。

47、本专利技术取得的技术效果如下:...

【技术保护点】

1.一种基于多标识体系的学者信息对齐方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,步骤1)中基于成果ID对齐学者成果数据的步骤包括:

3.如权利要求2所述的方法,其特征在于,步骤(4)中进行字段合并包括合并成果ID、成果标题、作者信息、作者机构和成果领域关键词。

4.如权利要求1所述的方法,其特征在于,步骤2)和5)中对学者数据进行清洗和补充的步骤包括:

5.如权利要求4所述的方法,其特征在于,步骤(9)中使用TF-IDF算法从学者成果中提取关键词。

6.如权利要求1所述的方法,其特征在于,步骤4)中根据学者标准姓名、机构标准名称是否一致,以及成果领域关键词差异值是否小于预设阈值,来判断是否同一学者,包括以下步骤:

7.如权利要求1所述的方法,其特征在于,步骤5)中更新相关数据库包括更新学者标准库、成果标准库和机构标准库。

8.一种基于多标识体系的学者信息对齐系统,用于实现权利要求1-7任一项所述的方法,其特征在于,包括:

【技术特征摘要】

1.一种基于多标识体系的学者信息对齐方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,步骤1)中基于成果id对齐学者成果数据的步骤包括:

3.如权利要求2所述的方法,其特征在于,步骤(4)中进行字段合并包括合并成果id、成果标题、作者信息、作者机构和成果领域关键词。

4.如权利要求1所述的方法,其特征在于,步骤2)和5)中对学者数据进行清洗和补充的步骤包括:

5.如权利要求4所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:夏晓蕾刘佳王姝王丽娟吕雪峰
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1