【技术实现步骤摘要】
姓名消歧方法、装置、电子设备及计算机可读存储介质
本申请实施例涉及信息处理
,具体而言,本申请涉及一种姓名消歧方法、装置、电子设备及计算机可读存储介质。
技术介绍
近年来,随着计算机技术的发展、互联网的普及和应用,网络上的信息(例如论文文献信息、专利文献信息)也越来越多。信息的快速增长使我们在获得丰富信息内容的同时,也产生了如何快速获取所需要信息的难题。由于用户对于高质量搜索的需求在不断提升,且人物信息搜索也在不断增长。用户希望能够通过搜索获取到其想了解的某个作者的文献信息,但是由于作者同名现象的普遍存在,作者姓名往往具有很强的歧义性,导致目前的搜索结果的质量不尽人意。因此想要获取特定作者的文献信息变得更加困难。而姓名消歧就是研究如何在海量的数据中,将文献信息按照其所属作者进行分类。目前,文献作者的姓名消歧技术越来越受到国内外学者们的广泛重视,一系列国内外的评测也针对姓名消歧问题展开,并推动了相关技术的发展和进步。然而,现有的姓名消歧基本上都是基于单一语言环境下的文献作者的姓名消歧,还不存在多语言环境下的文献作者的姓名消歧方法。
技术实现思路
本申请实施例的目的 ...
【技术保护点】
1.一种姓名消歧方法,其特征在于,包括:根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。
【技术特征摘要】
1.一种姓名消歧方法,其特征在于,包括:根据预先基于训练语料生成的词稀疏分布式表征SDR,确定待进行姓名消歧的至少两种语言种类的至少两篇文献的文献信息,一篇文献对应一种语言种类;基于预先构建的针对至少两种语言种类的文献作者分类模型,根据至少两种语言种类的各篇文献的文献信息,对该各篇文献按照所属文献作者进行分类,得到该各篇文献分别对应的第一作者类别,一种语言种类的文献作者分类模型对应处理相应语言种类的文献;将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧。2.根据权利要求1所述的方法,其特征在于,所述将各个语言种类下的各个第一作者类别进行合并处理,以对各个语言种类的各篇文献的文献作者进行姓名消歧,包括:将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者进行姓名消歧,得到姓名消歧后的各个第二作者类别;将不同语言种类下的各个第二作者类别进行合并处理,以对不同语言种类的各篇文献的文献作者进行姓名消歧。3.根据权利要求1所述的方法,其特征在于,文献信息包括文献摘要SDR和/或文献文本SDR,根据预先基于训练语料生成的词SDR,确定待进行姓名消歧的任一语言种类的任一篇文献的文献信息,包括:根据词SDR,确定所述任一篇文献的文献摘要中各个词的第一词SDR和/或文献文本中各个词的第二词SDR;对所述各个第一词SDR依据对应维度相加,得到所述文献摘要SDR;对所述各个第二词SDR依据对应维度相加,得到所述文献文本SDR。4.根据权利要求3所述的方法,其特征在于,对所述各个第一词SDR依据对应维度相加,得到所述文献摘要SDR,包括:将任一维度的各个第一词SDR的总和与第一预定阈值进行比较,并将大于或等于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第一预定数值,将小于第一预定阈值的该任一维度的各个第一词SDR的总和转换为第二预定数值;依据各个维度的排序,得到包括各个第一预定数值和/或各个第二预定数值的所述文献摘要SDR;对所述各个第二词SDR依据对应维度相加,得到所述文献文本SDR,包括:将任一维度的各个第二词SDR的总和分别与第二预定阈值进行比较,并将大于或等于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第三预定数值,将小于第二预定阈值的该任一维度的各个第二词SDR的总和转换为第四预定数值;依据各个维度的排序,得到包括各个第三预定数值和/或各个第四预定数值的所述文献文本SDR。5.根据权利要求1所述的方法,其特征在于,文献信息包括文献摘要SDR和/或文献文本SDR,基于预先构建的针对任一语言种类的文献作者分类模型,根据该任一语言种类的任一篇文献的文献信息,对该任一篇文献按照文献作者进行分类,得到该任一篇文献的第一作者类别,包括:将任一语言种类的任一篇文献的文献摘要SDR和/或文献文本SDR,输入到预先构建的针对该任一语言种类的文献作者分类模型中,得到该任一篇文献的SDR预测结果;确定所述SDR预测结果与各个文献作者SDR之间的第一相似度值,并将最大第一相似度值对应的文献作者SDR的作者类别确定为该任一篇文献的第一作者类别。6.根据权利要求2所述的方法,其特征在于,将同一语言种类下的各个第一作者类别进行合并处理,以对同一语言种类的各篇文献的文献作者...
【专利技术属性】
技术研发人员:李琳娜,翟晓瑞,韩红旗,刘志辉,王莉军,
申请(专利权)人:中国科学技术信息研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。