【技术实现步骤摘要】
一种论文作者姓名消歧的方法、设备及储存介质
[0001]本专利技术属于文献处理
,尤其涉及一种论文作者姓名消歧的方法、设备及储存介质。
技术介绍
[0002]近年来,随着中国发表国际论文的数量大幅攀升,中国作者在国际学术界的受关注程度持续走高。同时,英文学术文献数据库中,中国作者重名问题日益突显。中文姓名转化为拼音(或英文名)之后,丢失了汉字特征,重名几率大幅度提升,例如,如不同机构的两位作者同叫“李四”,或者一位叫做“王五”,另一位叫做“王吴”,在一些外文文献中写的通讯作者的名称结果全为“Wu Wang”,如此会对论文检索造成极大的困扰,另一方面,同一作者所发表的论文作者姓名可能会以不同的方式进行呈现,如作者真实姓名叫做“张三”,可能在某些外文文献中是“San Zhang”,同时也可能会以缩写的方式进行呈现如“Zhang S.”,此时,同样会对论文检索造成很多麻烦,在现有系统中很多论文搜索引擎都是直接针对字符串匹配进行检索查询的,随着数据量的增大,检索出来的结果很大程度上不能保证其准确性,大多数情况下都需要人工对结果 ...
【技术保护点】
【技术特征摘要】
1.一种论文作者姓名消歧方法,其特征在于,包括如下步骤:S1:创建作者信息数据集和邮箱统计临时表;S2:对作者信息集中的每项作者属性特征进行权重计算;S3:基于词向量生成作者属性特征的嵌入表示,通过S2得到的特征权重对嵌入的特征向量进行加权融合,得到作者信息集的整体嵌入;S4:提取邮箱统计临时表中的一个邮箱地址;S5:根据提取的邮箱地址,在作者信息数据集中进行筛选,获取若干条被选中的作者信息记录,构建图神经网络;每条作者信息记录作为其中的一个节点;S6:在图神经网络中,将作者姓名和机构均相同且距离小于阈值的节点构建边;S7:通过图自动编码器学习作者信息的节点嵌入,将存在边的作者信息合并为一组专家数据,并添加到临时信息表中分配唯一ID,其余作者信息作为独立专家数据添加到临时信息表,分别分配唯一ID;S8:各组专家数据通过其包含作者信息关联对应的论文ID,将关联论文ID后的各组专家数据输出到专家资源临时表;S9:为所述专家资源临时表中的每一组专家数据进行邮箱聚合统计,邮箱聚合统计方法包括:为该组专家数据中包含的各个邮箱统计出现频次;取出现频次最多的邮箱作为该组专家数据对应的邮箱,并填入该组专家数据的邮箱题录;若出现频次最多的邮箱有多个,则拆分收件人,Email服务器地址,进行LCS比较,取得完全匹配的邮箱作为该组专家数据对应的邮箱,填入该组专家数据的邮箱题录,并对其他题录进行去重;将所述专家资源临时表中数据写入专家资源表,删除专家资源临时表;S10:更新专家资源表,其中,所述专家资源表包括关键词、学科、期刊和源邮箱题录,更新的方法包括:根据所述专家资源表中每条新增数据的关联论文ID读取文献数据库中对应的关键词、学科和期刊字段,通过去重、分隔后写入对应题录下;将S4中提取的邮箱地址写入新增数据的源邮箱题录下,所述源邮箱用于通过该邮箱关联对应的专家数据组的邮箱;S11:提取邮箱统计临时表中下一个邮箱地址,回到S5步骤,直至遍历整个邮箱统计临时表;S12:对专家资源表进行二次合并,输出专家资源表。2.根据权利要求1所述一种论文作者姓名消歧方法,其特征在于,建立作者信息数据集的方法包括如下步骤:从文献数据库中的相关数据中提取作者属性信息并以预设规则进行规范化生成作者信息数据集,相关的数据包括:全局唯一标识符guid、邮箱EM、作者姓名AF、通讯作者RP、作者简称AU、关键词DE、出版物PU以及所属机构C1字段数据;作者属性信息包括:全局唯一标识符guid、邮箱EM、作者全名Name、作者简称altName、机构Organizations、第二机构Second_Organization、合著者Coauthor、国别Country和组
织部门organizationdep...
【专利技术属性】
技术研发人员:方志坚,王露,张华熊,陈超颖,汤哲冲,贾子杰,
申请(专利权)人:浙江理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。