【技术实现步骤摘要】
作者姓名消歧方法及作者姓名消歧装置
[0001]本专利技术涉及一种作者姓名消歧方法,同时涉及一种相应的作者姓名消歧装置,属于计算机信息处理
技术介绍
[0002]近年来,科技资源的数据量正在持续快速增长,其中以文献资料为主的学术数据具有异构性强、歧义性高的特性。科学研究需要科研工作者从海量数据中检索出准确的学者论文信息,这就需要在学术搜索引擎构建当中,获取准确的学者
‑
论文关系。
[0003]作者姓名消歧的核心目标是将不同的同名作者实体创作的论文集合,划分为各自的论文集合,避免学者
‑
论文之间的对应关系混乱。由于常用姓名的数量远小于学者数,造成学者姓名存在相当大的歧义,比如“Zhang Wei”这样的名字在微软学术中存在这数以百计的检索结果。因此区分论文集合中同名学者的问题,即作者姓名消歧问题(Author Name Disambiguation,简称为AND),亟待解决且充满挑战。
[0004]在申请号为202010740289.6的中国专利申请中,公开了一种论 ...
【技术保护点】
【技术特征摘要】
1.一种作者姓名消歧方法,其特征在于包括如下步骤:通过预设模型对异构图进行编码,其中,所述异构图根据论文数据的结构化信息构建;通过层次凝聚聚类算法,将编码后的论文区分开成不同的论文聚类,每个论文聚类的作者实际上不同。2.如权利要求1所述的作者姓名消歧方法,其特征在于,所述利用预设模型对异构图进行编码之前,还包括如下步骤:将论文数据整理成结构化数据,所述结构化数据包括论文题目、摘要、作者、出版机构、出版物等信息;根据结构化数据构建异构图,所述异构图的节点至少包括论文、作者以及出版物种类,所述节点包括结构化数据和长文本信息等属性。3.如权利要求2所述的作者姓名消歧方法,其特征在于,所述根据结构化数据构建异构图,包括如下子步骤:将每篇论文都根据与论文对应的出版机构进行去重;将每篇论文和与所述每篇论文对应的出版机构中的同名作者连接。4.如权利要求2所述的作者姓名消歧方法,其特征在于,所述利用预设模型对异构图进行编码,包括如下子步骤:在异构图上随机游走,获得随机游走后的路径;使用预设模型对路径中的节点进行编码,获得对应的节点嵌入。5.如权利要求4所述的作者姓名消歧方法,其特征在于,所述在异构图上随机游走,获得随机游走后的路径,包括如下子步骤:从异构图中的任一待编码作者节点开始路径采样;随机游走经过当前节点的邻居节点,所述当前节点包括待编码作者节点;以预设返回概率重返当前节点;随机游走固定采样步数后,结束采样。6.如权利要求4所述的作者姓名消歧方法,其特征在于,所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。