一种针对同名学者的排歧方法及装置制造方法及图纸

技术编号:21060135 阅读:16 留言:0更新日期:2019-05-08 06:56
本申请提供了一种针对同名学者的排歧方法及装置,属于计算机领域,所述方法包括:获取预先存储的数据集,数据集包括至少一个文献数据以及该文献数据对应的标识,文献数据包括作者名字;通过预设的相似度算法,从所述数据集包含的作者名字中,确定名字集合,所述名字集合包括满足预设相似度条件的作者名字,以及每个作者名字所属的文献数据的标识;针对所述名字集合包含的作者名字,根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则,确定该作者名字对应的第一知识图谱,其中,所述第一知识图谱包括至少一个节点,所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合。采用本申请,能够提高确定同名学者的效率。

A Disambiguation Method and Device for Scholars of the Same Name

【技术实现步骤摘要】
一种针对同名学者的排歧方法及装置
本申请涉及计算机领域,特别是涉及一种针对同名学者的排歧方法及装置。
技术介绍
用户可以通过各类学术检索平台搜索目标文献的作者名字,以在海量文献中快速定位目标文献。然而,由于作者名字可能存在多种书写形式,导致检索到的文献可能属于具有相同作者名字的其他作者,出现名字歧义或同一作者对应多个名字导致检索信息不全的现象,书写形式包括中文、英文、拼音、以及英文缩写。现有技术中,服务器可以获取预先存储的各类学术搜索网站的数据库,数据库包括多条文献数据,每条文献数据包括文献的题目、作者名字、工作单位,数据库中属于同一作者的多条文献数据已预先由人工进行标记;然后,服务器可以通过预设的训练规则,对多条文献数据进行训练,得到训练好的搜索模型;之后,服务器可以将训练好的搜索模型作为学术搜索网站的搜索系统,接收用户的搜索请求。
技术实现思路
本申请实施例的目的在于提供一种针对同名学者的排歧方法及装置,以实现提高确定同名学者的效率。具体技术方案如下:第一方面,提供了一种针对同名学者的排歧方法,所述方法包括:获取预先存储的数据集,所述数据集包括至少一个文献数据以及所述文献数据对应的标识,所述文献数据包括作者名字;通过预设的相似度算法,从所述数据集包含的作者名字中,确定名字集合,所述名字集合包括满足预设相似度条件的作者名字,以及每个作者名字所属的文献数据的标识;针对所述名字集合包含的作者名字,根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则,确定该作者名字对应的第一知识图谱,其中,所述第一知识图谱包括至少一个节点,所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合;基于所述名字集合包含的各作者名字对应的第一知识图谱,按照预设的节点合并规则,对各所述第一知识图谱中的节点进行合并,确定属于同一作者的节点,得到目标知识图谱。可选的,所述根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则,确定该作者名字对应的第一知识图谱包括:获取所述作者名字所属文献数据的标识对应的文献数据;在所述文献数据中确定强特征信息,所述强特征信息包括作者的联系方式信息;针对每个文献数据,通过预设的相似度算法,计算该文献数据的所述强特征信息与当前各节点对应的强特征信息之间的第一相似度;确定第一相似度大于预设第一相似度阈值的第一节点,并将该文献数据添加到所述第一节点的文献数据的集合中。可选的,所述将该文献数据添加到目标节点的文献数据的集合中之后,还包括:在所述节点包含的文献数据中确定弱特征信息,所述弱特征信息包括文献数据的相关合作者信息,所述相关合作者信息包括与所述作者名字属于同一文献数据的其他作者的作者名字;针对每个节点,通过预设的相似度算法,计算该节点的所述弱特征信息与当前各节点对应的弱特征信息之间的第二相似度;确定第二相似度大于预设第二相似度阈值的第二节点,并将该节点包含的文献数据添加到所述第二节点的文献数据的集合中。可选的,所述将该节点包含的文献数据添加到所述第二节点的文献数据的集合中之后,还包括:确定包含的文献数据的标识个数大于预设数目阈值的节点;在所述节点中,删除不满足预设筛选条件的文献数据的标识,得到该作者名字对应的第一知识图谱。可选的,所述作者名字包括非中文作者名字和中文作者名字,所述基于所述名字集合包含的各作者名字对应的第一知识图谱,按照预设的节点合并规则,对各所述第一知识图谱中的节点进行合并,确定属于同一作者的节点,得到目标知识图谱包括:根据预先存储的中英文映射表,确定所述名字集合包含的非中文作者名字对应的中文作者名字,所述中英文映射表包括满足预设相似度条件的非中文作者名字和中文作者名字;针对每个中文作者名字,获取该中文作者名字的第一知识图谱;将所述第一知识图谱中的节点与该中文作者名字对应的非中文作者名字的第一知识图谱中的节点,按照预设的节点合并规则进行合并,确定该中文作者名字对应的第二知识图谱;对各中文作者名字对应的第二知识图谱中的节点,按照预设的节点合并规则进行合并,得到目标知识图谱。可选的,所述方法还包括:接收文献检索请求,所述文献检索请求携带有作者名字;在预先存储的目标知识图谱中,确定包含所述作者名字的目标节点;根据所述目标节点包含的文献数据的标识,确定并发送目标文献数据至预设的终端。第二方面,提供了一种针对同名学者的排歧装置,其特征在于,所述装置包括:获取模块,用于获取预先存储的数据集,所述数据集包括至少一个文献数据以及所述文献数据对应的标识,所述文献数据包括作者名字;第一确定模块,用于通过预设的相似度算法,从所述数据集包含的作者名字中,确定名字集合,所述名字集合包括满足预设相似度条件的作者名字,以及每个作者名字所属的文献数据的标识;第二确定模块,用于针对所述名字集合包含的作者名字,根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则,确定该作者名字对应的第一知识图谱,其中,所述第一知识图谱包括至少一个节点,所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合;第三确定模块,用于基于所述名字集合包含的各作者名字对应的第一知识图谱,按照预设的节点合并规则,对各所述第一知识图谱中的节点进行合并,确定属于同一作者的节点,得到目标知识图谱。可选的,所述第二确定模块包括:第一获取子模块,用于获取所述作者名字所属文献数据的标识对应的文献数据;第一确定子模块,用于在所述文献数据中确定强特征信息,所述强特征信息包括作者的联系方式信息;第一计算子模块,用于针对每个文献数据,通过预设的相似度算法,计算该文献数据的所述强特征信息与当前各节点对应的强特征信息之间的第一相似度;第一添加子模块,用于确定第一相似度大于预设第一相似度阈值的第一节点,并将该文献数据添加到所述第一节点的文献数据的集合中。可选的,所述第二确定模块还包括:第二确定子模块,用于在所述节点包含的文献数据中确定弱特征信息,所述弱特征信息包括文献数据的相关合作者信息,所述相关合作者信息包括与所述作者名字属于同一文献数据的其他作者的作者名字;第二计算子模块,用于针对每个节点,通过预设的相似度算法,计算该节点的所述弱特征信息与当前各节点对应的弱特征信息之间的第二相似度;第二添加子模块,用于确定第二相似度大于预设第二相似度阈值的第二节点,并将该节点包含的文献数据添加到所述第二节点的文献数据的集合中。可选的,所述第二确定模块还包括:第三确定子模块,用于确定包含的文献数据的标识个数大于预设数目阈值的节点;删除子模块,用于在所述节点中,删除不满足预设筛选条件的文献数据的标识,得到该作者名字对应的第一知识图谱。可选的,所述作者名字包括非中文作者名字和中文作者名字,所述第三确定模块包括:第四确定子模块,用于根据预先存储的中英文映射表,确定所述名字集合包含的非中文作者名字对应的中文作者名字,所述中英文映射表包括满足预设相似度条件的非中文作者名字和中文作者名字;第二获取子模块,用于针对每个中文作者名字,获取该中文作者名字的第一知识图谱;第一合并子模块,用于将所述第一知识图谱中的节点与该中文作者名字对应的非中文作者名字的第一知识图谱中的节点,按照预设的节点合并规则进行合并,确定该中文作者名字对应的第二知识图谱;第二合并本文档来自技高网...

【技术保护点】
1.一种针对同名学者的排歧方法,其特征在于,所述方法包括:获取预先存储的数据集,所述数据集包括至少一个文献数据以及所述文献数据对应的标识,所述文献数据包括作者名字;通过预设的相似度算法,从所述数据集包含的作者名字中,确定名字集合,所述名字集合包括满足预设相似度条件的作者名字,以及每个作者名字所属的文献数据的标识;针对所述名字集合包含的作者名字,根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则,确定该作者名字对应的第一知识图谱,其中,所述第一知识图谱包括至少一个节点,所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合;基于所述名字集合包含的各作者名字对应的第一知识图谱,按照预设的节点合并规则,对各所述第一知识图谱中的节点进行合并,确定属于同一作者的节点,得到目标知识图谱。

【技术特征摘要】
1.一种针对同名学者的排歧方法,其特征在于,所述方法包括:获取预先存储的数据集,所述数据集包括至少一个文献数据以及所述文献数据对应的标识,所述文献数据包括作者名字;通过预设的相似度算法,从所述数据集包含的作者名字中,确定名字集合,所述名字集合包括满足预设相似度条件的作者名字,以及每个作者名字所属的文献数据的标识;针对所述名字集合包含的作者名字,根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则,确定该作者名字对应的第一知识图谱,其中,所述第一知识图谱包括至少一个节点,所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合;基于所述名字集合包含的各作者名字对应的第一知识图谱,按照预设的节点合并规则,对各所述第一知识图谱中的节点进行合并,确定属于同一作者的节点,得到目标知识图谱。2.根据权利要求1所述的方法,其特征在于,所述根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则,确定该作者名字对应的第一知识图谱包括:获取所述作者名字所属文献数据的标识对应的文献数据;在所述文献数据中确定强特征信息,所述强特征信息包括作者的联系方式信息;针对每个文献数据,通过预设的相似度算法,计算该文献数据的所述强特征信息与当前各节点对应的强特征信息之间的第一相似度;确定第一相似度大于预设第一相似度阈值的第一节点,并将该文献数据添加到所述第一节点的文献数据的集合中。3.根据权利要求2所述的方法,其特征在于,所述将该文献数据添加到目标节点的文献数据的集合中之后,还包括:在所述节点包含的文献数据中确定弱特征信息,所述弱特征信息包括文献数据的相关合作者信息,所述相关合作者信息包括与所述作者名字属于同一文献数据的其他作者的作者名字;针对每个节点,通过预设的相似度算法,计算该节点的所述弱特征信息与当前各节点对应的弱特征信息之间的第二相似度;确定第二相似度大于预设第二相似度阈值的第二节点,并将该节点包含的文献数据添加到所述第二节点的文献数据的集合中。4.根据权利要求3所述的方法,其特征在于,所述将该节点包含的文献数据添加到所述第二节点的文献数据的集合中之后,还包括:确定包含的文献数据的标识个数大于预设数目阈值的节点;在所述节点中,删除不满足预设筛选条件的文献数据的标识,得到该作者名字对应的第一知识图谱。5.根据权利要求1所述的方法,其特征在于,所述作者名字包括非中文作者名字和中文作者名字,所述基于所述名字集合包含的各作者名字对应的第一知识图谱,按照预设的节点合并规则,对各所述第一知识图谱中的节点进行合并,确定属于同一作者的节点,得到目标知识图谱包括:根据预先存储的中英文映射表,确定所述名字集合包含的非中文...

【专利技术属性】
技术研发人员:张思洋黄韬鄂新华刘江谢人超霍如
申请(专利权)人:北京邮电大学北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1