The invention discloses a similar author search method based on the semantic information of the title of the literature. The method includes: S1: establishes a document information network through the input data set; S2: extracts the title of the literature in the document information network; S3: traverses the document information network according to the element path, and calculates the author in the same way. The number of papers published in a conference; S4: traverses the authors of the literature and information network and calculates the similarity with the input query author; S5: has a descending order for the completed author according to the size of the similarity, and the K similar authors before the output. The invention is based on the literature information network to consider the influence of the title of the literature on the similarity of the author, and has achieved high accuracy and high efficiency in the process of testing.
【技术实现步骤摘要】
一种基于文献标题语义信息的相似作者搜索方法
本专利技术属于计算机数据挖掘、用户推荐领域,涉及一种基于文献标题语义信息的相似作者搜索方法。
技术介绍
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘的目的是指从海量的数据中挖掘到用户所感兴趣的相关信息。近年来,随着科学技术的不断发展,学术论文的发表数量逐年上升,海量的学术论文为科研工作者提供了大量的参考,同时对于学术论文中的相关关系的研究也成为了学术领域的研究热点。国内外很多学者针对文献中作者关系的研究专利技术了许多方法,同时做了大量的实验,但是这些方法中仍然存在许多不足。例如,目前大部分方法是基于文献网络中的结构来计算作者之间的相似性,但是这些方法都忽略了文献本身的语义信息,两个作者虽然在同一个会议上发表了文章,但是它们发表的文章领域可能完全不同,导致在计算作者间的相似性时有较大偏差。针对现状及上述问题,有必要设计一种基于文献标题语义信息的相似作者搜索方法。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于文献标题语义信息的相似作者搜索方法,该方法基于文献标题的语义信息对文献信息网络中的作者进行相似性搜索,具有效率高、准确率高的特点。专利技术技术解决方案如下:一种基于文献标题语义信息的相似作者搜索方法,包括以下步骤:步骤1:建立文献信息网络。对输入的数据集进行处理,并转换为文献信息网络。文献信息网络中包含三种类型节点:作者、文章和会议。包含两种链接类型:“作者- ...
【技术保护点】
一种基于文献标题语义信息的相似作者搜索方法,其特征包括如下步骤:步骤1:根据输入的数据集建立一个文献信息网络;步骤2:利用步骤1中得到的文献信息网络,对文献集合进行遍历,对文献标题进行特征提取;步骤3:按照元路径对步骤1中生成的文献信息网络进行遍历,统计作者在同一个会议中发表的论文数;步骤4:对步骤1中生成的文献信息网络中的作者进行遍历,利用在步骤3中得到的统计结果和步骤2中得到的文献标题特征向量与输入的查询作者进行相似度计算;步骤5:对计算完成的作者集合按照相似度大小进行降序排序,输出最相似的前k个作者。
【技术特征摘要】
1.一种基于文献标题语义信息的相似作者搜索方法,其特征包括如下步骤:步骤1:根据输入的数据集建立一个文献信息网络;步骤2:利用步骤1中得到的文献信息网络,对文献集合进行遍历,对文献标题进行特征提取;步骤3:按照元路径对步骤1中生成的文献信息网络进行遍历,统计作者在同一个会议中发表的论文数;步骤4:对步骤1中生成的文献信息网络中的作者进行遍历,利用在步骤3中得到的统计结果和步骤2中得到的文献标题特征向量与输入的查询作者进行相似度计算;步骤5:对计算完成的作者集合按照相似度大小进行降序排序,输出最相似的前k个作者。2.根据权利要求1所述的一种基于文献标题语义信息的相似作者搜索方法,其特征在于,在步骤2中,对文献标题进行特征提取,使用doc2vec神经网络语言模型,将文献标题映射成为特征向量:其中V代表特征向量,T代表特征向量的维度。3.根据权利要求1所述的一种基于文献标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。