作者姓名消歧方法及作者姓名消歧装置制造方法及图纸

技术编号:33440116 阅读:20 留言:0更新日期:2022-05-19 00:27
本发明专利技术公开了一种作者姓名消歧方法及作者姓名消歧装置。该方法包括如下步骤:通过预设模型对异构图进行编码,其中,异构图根据论文数据的结构化信息构建;通过层次凝聚聚类算法,将编码后的论文区分开成不同的论文聚类,每个论文聚类的作者实际上不同。本发明专利技术将基于XLM

【技术实现步骤摘要】
作者姓名消歧方法及作者姓名消歧装置


[0001]本专利技术涉及一种作者姓名消歧方法,同时涉及一种相应的作者姓名消歧装置,属于计算机信息处理


技术介绍

[0002]近年来,科技资源的数据量正在持续快速增长,其中以文献资料为主的学术数据具有异构性强、歧义性高的特性。科学研究需要科研工作者从海量数据中检索出准确的学者论文信息,这就需要在学术搜索引擎构建当中,获取准确的学者

论文关系。
[0003]作者姓名消歧的核心目标是将不同的同名作者实体创作的论文集合,划分为各自的论文集合,避免学者

论文之间的对应关系混乱。由于常用姓名的数量远小于学者数,造成学者姓名存在相当大的歧义,比如“Zhang Wei”这样的名字在微软学术中存在这数以百计的检索结果。因此区分论文集合中同名学者的问题,即作者姓名消歧问题(Author Name Disambiguation,简称为AND),亟待解决且充满挑战。
[0004]在申请号为202010740289.6的中国专利申请中,公开了一种论文作者的消歧方法,包本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种作者姓名消歧方法,其特征在于包括如下步骤:通过预设模型对异构图进行编码,其中,所述异构图根据论文数据的结构化信息构建;通过层次凝聚聚类算法,将编码后的论文区分开成不同的论文聚类,每个论文聚类的作者实际上不同。2.如权利要求1所述的作者姓名消歧方法,其特征在于,所述利用预设模型对异构图进行编码之前,还包括如下步骤:将论文数据整理成结构化数据,所述结构化数据包括论文题目、摘要、作者、出版机构、出版物等信息;根据结构化数据构建异构图,所述异构图的节点至少包括论文、作者以及出版物种类,所述节点包括结构化数据和长文本信息等属性。3.如权利要求2所述的作者姓名消歧方法,其特征在于,所述根据结构化数据构建异构图,包括如下子步骤:将每篇论文都根据与论文对应的出版机构进行去重;将每篇论文和与所述每篇论文对应的出版机构中的同名作者连接。4.如权利要求2所述的作者姓名消歧方法,其特征在于,所述利用预设模型对异构图进行编码,包括如下子步骤:在异构图上随机游走,获得随机游走后的路径;使用预设模型对路径中的节点进行编码,获得对应的节点嵌入。5.如权利要求4所述的作者姓名消歧方法,其特征在于,所述在异构图上随机游走,获得随机游走后的路径,包括如下子步骤:从异构图中的任一待编码作者节点开始路径采样;随机游走经过当前节点的邻居节点,所述当前节点包括待编码作者节点;以预设返回概率重返当前节点;随机游走固定采样步数后,结束采样。6.如权利要求4所述的作者姓名消歧方法,其特征在于,所...

【专利技术属性】
技术研发人员:张辉郝程乾
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1