一种中英文文献作者姓名融合消歧方法技术

技术编号:33024494 阅读:19 留言:0更新日期:2022-04-15 08:58
本发明专利技术属于姓名消歧技术领域,具体涉及一种中英文文献作者姓名消歧方法。该方法基于语义指纹、作者合作网相似度、作者引用网络相似度等进行中文作者姓名消歧、英文作者姓名消歧,并根据中文消歧结果和英文消歧结果完成中文作者与英文文献中姓名拼音的消歧,该方法能够准确的区分出不同文献的作者是否为同一人,能够很好的识别出中英文下的同一作者,快速定位到需要找的作者,准确率高,有利于检索工作的开展;而且本发明专利技术引入作者科研时长相似度的计算,可以很好的辅助中文作者中英文名的消歧,也可以确定作者的年龄范围,过滤掉其他不在该范围内的同名作者,提高消歧准确性。提高消歧准确性。提高消歧准确性。

【技术实现步骤摘要】
一种中英文文献作者姓名融合消歧方法


[0001]本专利技术属于姓名消歧
,具体涉及一种中英文文献作者姓名消歧方法。

技术介绍

[0002]随着互联网的飞速发展,大量的论文、专利等科学文献不断涌现,当我们从这海量的文献中检索需要的有用信息时,经常会用到的检索手段是通过文献作者姓名进行检索,查询其发表的所有文献。但在检索过程中我们会发现,存在大量相同姓名的作者,很难快速定位到我们要找的作者,非常不利于我们的工作。
[0003]文献中作者姓名存在歧义的情况由来已久,主要有以下几种问题:
[0004]1、中文作者姓名歧义。如:“张伟”,生活中会有许多叫这个名字的人,他们在发表论文、专利等文献时,署名均为“张伟”,我们很难区分出文献是哪一个“张伟”发表的。
[0005]2、英文作者姓名歧义。同中文作者一样,英文也会存在大量不同的人具有相同的姓名,如何区分出不同的人也是一个难题。
[0006]3、中文作者的英文姓名。在学术国际化背景下,国内作者开始越来越多的在国际期刊、会议上发表文献,而他们在发表文献的时候,署名多采用拼音的方式,如:“Zhang San”或“San Zhang”,由于拼音的特性,“Zhang San”即可以对应中文的“张三”,也可以对应“张散”等等,而“Lin Yang”即可以对应“林扬”,也可以对应“杨林”,在这样的情况下,更难区分出具体是哪一个人,在对一个作者进行中英文学术成果评估时,结果往往是缺乏科学性与实效性的。
[0007]鉴于以上问题,姓名消歧在构建文献知识库、进行文献检索时是一个急需解决的难点,也具有非常重要的意义与价值。

技术实现思路

[0008]针对目前中英文作者姓名区分存在的缺陷和问题,本专利技术提供一种中英文文献作者姓名消歧方法。
[0009]本专利技术解决其技术问题所采用的方案是:一种中英文文献作者姓名融合消歧方法,包括以下步骤:
[0010]步骤一、中文文献作者姓名消歧,包括以下步骤:
[0011]S1、作者名称清洗:去除作者名称中的符号,根据百家姓对作者名称进行转化统一转化成姓+名的格式;
[0012]S2、作者所属机构清洗:将作者机构统一规整为所属机构主体名称;
[0013]S3、将中文文献作者两两进行对比,判断作者姓名是否相同,
[0014]Ⅰ、若不同,将结果聚合,得到中文消歧结果;
[0015]Ⅱ、若相同,分别计算机构相似度、合作网络相似度、引用网络相似度和文献内容相似度,并根据机构相似度、合作网络相似度、引用网络相似度和文献内容相似度的结果判断是否为同一作者;判断标准为:
[0016]若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;
[0017]若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;
[0018](1)若是同一作者,打上相同作者ID,并对两两计算后的结果进行聚合,得到中文消歧结果;
[0019](2)若不是同一作者,将结果聚合,得到中文消歧结果。
[0020]步骤二、英文文献作者姓名消歧,包括以下步骤:
[0021]S1、作者名称清洗:去除作者名称中的符号,将作者姓名拼音统一转换成名+姓格式;
[0022]S2、作者所属机构清洗:去除机构名称中的符号,并将机构简写补全;
[0023]S3、将英文文献作者两两进行对比,判断作者姓名是否相同,
[0024]Ⅰ、若不同,将结果集合得到英文消歧结果;
[0025]Ⅱ、若相同,分别计算机构相似度、合作网络相似度、引用网络相似度和文献内容相似度,并根据机构相似度、合作网络相似度、引用网络相似度和文献内容相似度判断是否为同一作者;判断标准为:
[0026]若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;
[0027]若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;
[0028](1)若是同一作者,打上相同作者ID,并对两两计算后的结果进行聚合,得到英文消歧结果;
[0029](2)若不是同一作者,将结果聚合,得到英文文消歧结果。
[0030]步骤三、中、英文作者姓名融合消歧,包括以下步骤:
[0031]S1、将中文消歧结果得出的中文文献作者、引用文献中的中文作者全部按照名+姓的格式转换成拼音格式,同时将中文作者所属机构翻译为英文;并根据作者ID进行分组;
[0032]S2、将英文消歧结果得到的作者ID进行分组;
[0033]S3、将中、英文文献作者姓名进行两两对比,判断姓名是否相同,
[0034]Ⅰ、若不同,将结果聚合,完成中英文文献作者姓名消歧;
[0035]Ⅱ、若相同,分别计算中、英文文献的机构相似度、合作网络相似度、引用网络相似度、文献内容相似度和科研时长相似度,并根据机构相似度、合作网络相似度、引用网络相似度、文献内容相似度和科研时长相似度结果判断是否为同一作者;判断标准为:
[0036]若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这四个相似度中有一个大于0.8,则认为是同一个人;
[0037]若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;
[0038](1)若中文文献和英文文献是同一作者,打上英文文献作者ID,完成中英文作者姓名消歧;
[0039](2)若中文文献和英文文献不是同一作者,将结果聚合,完成中英文文献作者姓名
消歧。
[0040]上述的中英文文献作者姓名融合消歧方法,在步骤一中计算中文文献作者文献内容相似度包括以下步骤:
[0041](1)将标题、摘要、关键词拼接为一个字符串E;
[0042](2)使用jieba分词对字符串E进行基于TF

IDF算法的关键词抽取,并取Top 10的词及其权重,生成“{词+权重}数组F;
[0043](3)将数组F中权重转换为1

5的整数权重,得到转换后的{词+权重}数组G;转换标准为:
[0044]权重小于0.2:转为1
[0045]权重大于等于0.2,小于0.4:转为2
[0046]权重大于等于0.4,小于0.6:转为3
[0047]权重大于等于0.6,小于0.8:转为4
[0048]权重大于等于0.8:转为5;
[0049](4)使用SimHash计算数组G的哈希值得到文本的语义指纹H本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中英文文献作者姓名融合消歧方法,其特征在于:包括以下步骤:步骤一、中文文献作者姓名消歧,包括以下步骤:S1、作者名称清洗:去除作者名称中的符号,根据百家姓对作者名称进行转化统一转化成姓+名的格式;S2、作者所属机构清洗:将作者机构统一规整为所属机构主体名称;S3、将中文文献作者两两进行对比,判断作者姓名是否相同,Ⅰ、若不同,将结果聚合,得到中文消歧结果;Ⅱ、若相同,分别计算机构相似度、合作网络相似度、引用网络相似度和文献内容相似度,并根据机构相似度、合作网络相似度、引用网络相似度和文献内容相似度的结果判断是否为同一作者;判断标准为:若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;(1)若是同一作者,打上相同作者ID,并对两两计算后的结果进行聚合,得到中文消歧结果;(2)若不是同一作者,将结果聚合,得到中文消歧结果;步骤二、英文文献作者姓名消歧,包括以下步骤:S1、作者名称清洗:去除作者名称中的符号,将作者姓名拼音统一转换成名+姓格式;S2、作者所属机构清洗:去除机构名称中的符号,并将机构简写补全;S3、将英文文献作者两两进行对比,判断作者姓名是否相同,Ⅰ、若不同,将结果集合得到英文消歧结果;Ⅱ、若相同,分别计算机构相似度、合作网络相似度、引用网络相似度和文献内容相似度,并根据机构相似度、合作网络相似度、引用网络相似度和文献内容相似度判断是否为同一作者;判断标准为:若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;(1)若是同一作者,打上相同作者ID,并对两两计算后的结果进行聚合,得到英文消歧结果;(2)若不是同一作者,将结果聚合,得到英文文消歧结果;步骤三、中、英文作者姓名融合消歧,包括以下步骤:S1、将中文消歧结果得出的中文文献作者、引用文献中的中文作者全部按照名+姓的格式转换成拼音格式,同时将中文作者所属机构翻译为英文;并根据作者ID进行分组;S2、将英文消歧结果得到的作者ID进行分组;S3、将中、英文文献作者姓名进行两两对比,判断姓名是否相同,Ⅰ、若不同,将结果聚合,完成中英文文献作者姓名消歧;Ⅱ、若相同,分别计算中、英文文献的机构相似度、合作网络相似度、引用网络相似度、
文献内容相似度和科研时长相似度,并根据机构相似度、合作网络相似度、引用网络相似度、文献内容相似度和科研时长相似度结果判断是否为同一作者;判断标准为:若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这四个相似度中有一个大于0.8,则认为是同一个人;若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人;(1)若中文文献和英文文献是同一作者,打上英文文献作者ID,完成中英文作者姓名消歧;(2)若中文文献和英文文献不是同一作者,将结果聚合,完成中英文文献作者姓名消歧。2.根据权利要求1所述的中英文文献作者姓名融合消歧方法,其特征在于:在步骤一中计算中文文献作者文献内容相似度包括以下步骤:(1)将标题、摘要、关键词拼接为一个字符串E;(2)使用jieba分词对字符串E进行基于TF

IDF算法的关键词抽取,并取Top 10的词及其权重,生成“{词+权重}数组F;(3)将数组F中权重转换为1

5的整数权重,得到转换后的{词+权重}数组G;转换标准为:权重小于0.2:转为1权重大于等于0.2,小于0.4:转为2权重大于等于0.4,小于0.6:转为3权重大于等于0.6,小于0.8:转为4权重大于等于0.8:转为5(4)使用SimHash计算数组G的哈希值得到文本的语义指纹H;(5)按照步骤(1)

(4)分别计算得到同名作者两篇中文文献的语义指纹H1、H2;(6)根据汉明距离计算两篇文献的内容相似度,相似度计算标准为:汉明距离=0,相似度=1汉明距离=1,相似度=0.9汉明距离=2,相似度=0.8汉明距离>=3,相似度=0;若汉明距离大于等于3,则两篇文献不相似;若汉明距离小于3,则两篇文献相似。3.根据权利要求1或2所述的中英文文献作者姓名融合消歧方法,其特征在于:在步骤二中计算英文文献作者文献内容相似度包括以下步骤:(1)将标题、摘要、关键词拼接为一个字符串E

;(2)使用NLTK对字符串E

进行基于...

【专利技术属性】
技术研发人员:贾士杨冯凯王元卓彭亮
申请(专利权)人:中科大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1