一种作者和作者单位对应关系的识别方法技术

技术编号：12249317 阅读：69 留言：0更新日期：2015-10-28 14:12

本发明专利技术旨在提出一种文献作者和作者单位对应关系的识别方法。基于文献著录中作者和作者单位对应关系的可靠性将对应关系分为两类：能够明确对应上的，形成结果集，在作者和作者单位对应关系数据项中准确标注；不能明确对应上的多对多关系，生成潜在关系对。在结果集中检索每个潜在关系对，如果找到，就在作者和作者单位对应关系数据项中标注。如果没找到，就在作者和作者单位候选对应关系数据项中标注。在提供作者相关检索服务时，同时对关系数据项和候选对应关系数据项进行检索，前部分作为准确结果，后部分作为候选结果。同时满足了检索查全率和准确率，提高了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文献检索和信息服务领域，特别是需要提供基于学术文献作者和作者单位准确对应的信息服务领域。
技术介绍
近年来，随着大规模文献数据库的应用和普及，研究人员、高校师生等在科研和学习中主要通过互联网检索各类文献数据库开展项目调研、科研创新和学习。按文献作者和作者单位进行检索、分组是文献数据库提供的重要服务。但是在文献出版中，署名的作者和作者单位通常不是一一对应的，除了只有唯一作者及作者单位的少数情况外，大部分是多作者和多作者单位的情况，而且许多文献在出版时因各种原因，作者和作者单位之间并没有通过标号标注对应关系。建设数据库时，对于这种情况，主要采用多对多、顺序分配等简单方法，存在很大误差。不能对作者和作者单位进行严格、准确对应，就会影响到基于作者和作者单位的检索服务质量。
技术实现思路
本专利技术旨在提出。该方法基于文献中标注的作者和作者单位对应关系的可靠性分为两类。第一类是能够明确对应上的，例如文献中只有一个作者和作者单位，或者在出版时通过标号已经明确标注了作者和作者单位的对应关系，这部分关系数据形成结果集，在作者和作者单位对应关系数据项中准确标注。第二类是不能明确对应上的多对多关系，生成所有潜在关系对，即每个作者对应所有作者单位，数据库中作者和作者单位对应关系数据项中暂时不标注。利用结果集，对潜在关系集进行自适应机器学习，如果在结果集中找到对应关系，就在作者和作者单位对应关系数据项中标注。如果在结果集中找不到对应关系，将潜在关系标注到数据库中的作者和作者单位候选对应关系数据项中。在提供基于作者和作者单位的检索服务时，同时提供对作者和作者...

【技术保护点】
一种作者和作者单位对应关系的识别方法，其特征在于，包括：将文献中作者和作者单位对应关系明确的数据添加到结果集，并标注作者和作者单位对应关系数据项，对关系不明确的数据形成多对多的潜在关系对；利用结果集对潜在关系对进行机器学习。对在结果集中找到的潜在关系对，就在作者和作者单位对应关系数据项中标注；在结果集中找不到的潜在关系对，就在数据库中的作者和作者单位候选对应关系数据项中标注；在提供与作者相关的检索服务时，同时提供对作者和作者单位对应关系数据项、作者和作者单位候选对应关系数据项两项内容的检索结果，前部分作为准确的检索结果，后部分作为候选的检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：薛德军，
申请(专利权)人：薛德军，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人