一种基于文献标题语义信息的相似作者搜索方法技术

技术编号：17939750 阅读：53 留言：0更新日期：2018-05-15 20:08

本发明专利技术公开了一种基于文献标题语义信息的相似作者搜索方法，该方法包括：S1:通过输入的数据集建立一个文献信息网络；S2:对文献信息网络中的文献标题进行特征提取；S3:按照元路径对文献信息网络进行遍历，计算作者在同一个会议中发表的论文数；S4:对文献信息网络中的作者进行遍历，并与输入的查询作者进行相似度计算；S5:对计算完成的作者按照相似度大小进行降序排序，输出前k个相似作者。本发明专利技术基于文献信息网络考虑了文献标题对于作者相似度的影响，在测试过程中取得了较高的准确度和较高的效率。

A similar author search method based on semantic information of document titles

The invention discloses a similar author search method based on the semantic information of the title of the literature. The method includes: S1: establishes a document information network through the input data set; S2: extracts the title of the literature in the document information network; S3: traverses the document information network according to the element path, and calculates the author in the same way. The number of papers published in a conference; S4: traverses the authors of the literature and information network and calculates the similarity with the input query author; S5: has a descending order for the completed author according to the size of the similarity, and the K similar authors before the output. The invention is based on the literature information network to consider the influence of the title of the literature on the similarity of the author, and has achieved high accuracy and high efficiency in the process of testing.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文献标题语义信息的相似作者搜索方法
本专利技术属于计算机数据挖掘、用户推荐领域，涉及一种基于文献标题语义信息的相似作者搜索方法。
技术介绍
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘的目的是指从海量的数据中挖掘到用户所感兴趣的相关信息。近年来，随着科学技术的不断发展，学术论文的发表数量逐年上升，海量的学术论文为科研工作者提供了大量的参考，同时对于学术论文中的相关关系的研究也成为了学术领域的研究热点。国内外很多学者针对文献中作者关系的研究专利技术了许多方法，同时做了大量的实验，但是这些方法中仍然存在许多不足。例如，目前大部分方法是基于文献网络中的结构来计算作者之间的相似性，但是这些方法都忽略了文献本身的语义信息，两个作者虽然在同一个会议上发表了文章，但是它们发表的文章领域可能完全不同，导致在计算作者间的相似性时有较大偏差。针对现状及上述问题，有必要设计一种基于文献标题语义信息的相似作者搜索方法。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于文献标题语义信息的相似作者搜索方法，该方法基于文献标题的语义信息对文献信息网络中的作者进行相似性搜索，具有效率高、准确率高的特点。专利技术技术解决方案如下：一种基于文献标题语义信息的相似作者搜索方法，包括以下步骤：步骤1：建立文献信息网络。对输入的数据集进行处理，并转换为文献信息网络。文献信息网络中包含三种类型节点：作者、文章和会议。包含两种链接类型：“作者-...
一种基于文献标题语义信息的相似作者搜索方法

【技术保护点】
一种基于文献标题语义信息的相似作者搜索方法，其特征包括如下步骤：步骤1:根据输入的数据集建立一个文献信息网络；步骤2:利用步骤1中得到的文献信息网络，对文献集合进行遍历，对文献标题进行特征提取；步骤3:按照元路径对步骤1中生成的文献信息网络进行遍历，统计作者在同一个会议中发表的论文数；步骤4:对步骤1中生成的文献信息网络中的作者进行遍历，利用在步骤3中得到的统计结果和步骤2中得到的文献标题特征向量与输入的查询作者进行相似度计算；步骤5:对计算完成的作者集合按照相似度大小进行降序排序，输出最相似的前k个作者。

【技术特征摘要】
1.一种基于文献标题语义信息的相似作者搜索方法，其特征包括如下步骤：步骤1:根据输入的数据集建立一个文献信息网络；步骤2:利用步骤1中得到的文献信息网络，对文献集合进行遍历，对文献标题进行特征提取；步骤3:按照元路径对步骤1中生成的文献信息网络进行遍历，统计作者在同一个会议中发表的论文数；步骤4:对步骤1中生成的文献信息网络中的作者进行遍历，利用在步骤3中得到的统计结果和步骤2中得到的文献标题特征向量与输入的查询作者进行相似度计算；步骤5:对计算完成的作者集合按照相似度大小进行降序排序，输出最相似的前k个作者。2.根据权利要求1所述的一种基于文献标题语义信息的相似作者搜索方法，其特征在于，在步骤2中，对文献标题进行特征提取，使用doc2vec神经网络语言模型，将文献标题映射成为特征向量：其中V代表特征向量，T代表特征向量的维度。3.根据权利要求1所述的一种基于文献标...

【专利技术属性】
技术研发人员：彭德中，邱庆羽，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人