当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于文献标题语义信息的相似作者搜索方法技术

技术编号:17939750 阅读:53 留言:0更新日期:2018-05-15 20:08
本发明专利技术公开了一种基于文献标题语义信息的相似作者搜索方法,该方法包括:S1:通过输入的数据集建立一个文献信息网络;S2:对文献信息网络中的文献标题进行特征提取;S3:按照元路径对文献信息网络进行遍历,计算作者在同一个会议中发表的论文数;S4:对文献信息网络中的作者进行遍历,并与输入的查询作者进行相似度计算;S5:对计算完成的作者按照相似度大小进行降序排序,输出前k个相似作者。本发明专利技术基于文献信息网络考虑了文献标题对于作者相似度的影响,在测试过程中取得了较高的准确度和较高的效率。

A similar author search method based on semantic information of document titles

The invention discloses a similar author search method based on the semantic information of the title of the literature. The method includes: S1: establishes a document information network through the input data set; S2: extracts the title of the literature in the document information network; S3: traverses the document information network according to the element path, and calculates the author in the same way. The number of papers published in a conference; S4: traverses the authors of the literature and information network and calculates the similarity with the input query author; S5: has a descending order for the completed author according to the size of the similarity, and the K similar authors before the output. The invention is based on the literature information network to consider the influence of the title of the literature on the similarity of the author, and has achieved high accuracy and high efficiency in the process of testing.

【技术实现步骤摘要】
一种基于文献标题语义信息的相似作者搜索方法
本专利技术属于计算机数据挖掘、用户推荐领域,涉及一种基于文献标题语义信息的相似作者搜索方法。
技术介绍
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘的目的是指从海量的数据中挖掘到用户所感兴趣的相关信息。近年来,随着科学技术的不断发展,学术论文的发表数量逐年上升,海量的学术论文为科研工作者提供了大量的参考,同时对于学术论文中的相关关系的研究也成为了学术领域的研究热点。国内外很多学者针对文献中作者关系的研究专利技术了许多方法,同时做了大量的实验,但是这些方法中仍然存在许多不足。例如,目前大部分方法是基于文献网络中的结构来计算作者之间的相似性,但是这些方法都忽略了文献本身的语义信息,两个作者虽然在同一个会议上发表了文章,但是它们发表的文章领域可能完全不同,导致在计算作者间的相似性时有较大偏差。针对现状及上述问题,有必要设计一种基于文献标题语义信息的相似作者搜索方法。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于文献标题语义信息的相似作者搜索方法,该方法基于文献标题的语义信息对文献信息网络中的作者进行相似性搜索,具有效率高、准确率高的特点。专利技术技术解决方案如下:一种基于文献标题语义信息的相似作者搜索方法,包括以下步骤:步骤1:建立文献信息网络。对输入的数据集进行处理,并转换为文献信息网络。文献信息网络中包含三种类型节点:作者、文章和会议。包含两种链接类型:“作者-文章”和“文章-会议”。步骤2:对文章标题进行特征提取。遍历步骤1中得到的文献信息网络中的文章集合,利用doc2vec算法对文章标题进行特征提取,将文本信息转换为特征向量:其中V代表特征向量,T代表特征向量的维度。步骤3:统计作者在同一个会议中发表的论文数量。遍历步骤1得到的文献信息网络,统计文献信息网络中全部作者在同一个会议上发表的论文数量,并对统计结果进行保存。步骤4:作者相似度计算。再次遍历由步骤1中得到的文献信息网络,利用步骤2中得到的统计结果对全部候选作者进行相似度计算:其中|C|表示会议的数量,表示从对象a1出发在满足元路径的前提下到对象a2的路径实例,Pc为定义在会议c上元路径,代表作者a发表在会议c上所有论文标题的特征向量集合,为作者a1作者a2在会议c上发表的论文标题的相似度:其中表示作者x在会议c上发表的所有文章特征向量集合,表示和的元素数量的最小值,表示取前个最大值,cos()表示余弦相似度,×代表笛卡尔积。步骤5:输出计算结果。将作者集合按照相似度大小降序排序,输出前k个最相似的作者。在步骤1的建立文献信息网络过程中,使用dict数据结构对建立的文献信息网络进行存储。在步骤2的特征提取过程中,利用常见的停用词,对文章标题进行处理,减少停用词对文章标题语义表达的影响。利用doc2vec算法的PV-DM模型进行特征提取。特征向量的维度可以根据数据集的大小自由设定,一般可以设置为128维。在步骤4中的包含一个剪枝策略。当发现候选作者与查询作者之间没有会议交集时,则剪掉该查询作者,进行下一个作者的相似度计算。本专利技术是基于文献标题语义信息的相似作者搜索方法,在搜索过程中考虑到了作者发表文章的标题语义信息对于作者相似度计算的重要性,综合考虑了文献信息网络的结构和文章标题语义信息计算作者相似度。本专利技术具有准确率高、效率高的特点。附图说明图1为本专利技术一种基于文献标题语义信息的相似作者搜索方法的流程图;图2文献信息网络示意图;图3为本专利技术一种基于文献标题语义信息的相似作者搜索方法的执行效率图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方法做进一步描述。以下施例仅用于说明本专利技术,但不用来限制本专利技术的范围。实施例1是本专利技术的一种实例,以“4-area-dataset”作为数据集,查询作者为“JiaweiHan”,k值为10,具体实施方法步骤如下:1.根据输入的数据集建立文献信息网络。该文献信息网络中包含了3种节点和两种关系。其中会议节点集合大小为20,作者集合大小为5000,文章集合大小为28569.2.遍历步骤1中建立的文献信息网络,利用停用词表对文献标题进行去除停用词操作,之后使用doc2vec算法对文献标题进行特征提取。doc2vec的参数设置如下表所示:参数类型数值size128window5min_count1iter103.对步骤1中建立的文献信息网络进行遍历,统计作者在相同会议中发表的论文数量,并对统计结果进行保存;4.再次遍历步骤1中建立的文献信息网络,计算作者与作者之间的相似度。在计算相似度的过程中,首先计算利用公式:计算结果举例如下表所示:文章编号文章标题相似值13624ATeXQuety-BasedXMLFull-TextSearchEngine.1.030481XGRIND:AQuery-FriendlyXMLCompressor.0.982234954TypecheckingforXMLTransformers.0.955030953Relational-styleXMLquery.0.954825346Mapping-drivenXMLtransformation.0.954130112SelectivityEstimationforXMLTwigs.0.950529910StatiX:makingXMLcount.0.950231474Type-BasedXMLProjection.0.948738686ConflictingXMLUpdates.0.936722661XMLQueryProcessing.0.9358由上表可以看出,与文章编号为“13624”相似的top-10的文章标题中都包含有“XML”字样,另外单词“query”也是频繁出现。从字面含义来看,十个标题表示的内容也大体相同,由此可以证明VSim计算出的相似度是有效的。之后计算作者与作者间的相似度VPSim,利用公式:5.将作者集合按照相似度的大小降序排序,并输出前k个与查询作者最相似的其它作者。输出结果如下表所示:相似作者相似度JiaweiHan1.0PhilipS.Yu0.7905ChristosFaloutsos0.7168RakeshAgrawai0.6722Hans-PeterKriegel0.6561WeiWang0.6383JianPei0.6261DiveshSrivastava0.6221HectorGarcia-Molina0.6012SurajitCbaudhuri0.6011由上表可以看出该方法能够准确查找到与查询作者相似的其它作者。证明方法是准确有效的。附图3展示的是以作者节点数目为变量本专利技术执行时间的变化,可以看出随着节点数目的增加本专利技术的执行时间大致呈线性增长,而且总体用时较少,以此可以证明本专利技术的效率较高。本文档来自技高网...
一种基于文献标题语义信息的相似作者搜索方法

【技术保护点】
一种基于文献标题语义信息的相似作者搜索方法,其特征包括如下步骤:步骤1:根据输入的数据集建立一个文献信息网络;步骤2:利用步骤1中得到的文献信息网络,对文献集合进行遍历,对文献标题进行特征提取;步骤3:按照元路径对步骤1中生成的文献信息网络进行遍历,统计作者在同一个会议中发表的论文数;步骤4:对步骤1中生成的文献信息网络中的作者进行遍历,利用在步骤3中得到的统计结果和步骤2中得到的文献标题特征向量与输入的查询作者进行相似度计算;步骤5:对计算完成的作者集合按照相似度大小进行降序排序,输出最相似的前k个作者。

【技术特征摘要】
1.一种基于文献标题语义信息的相似作者搜索方法,其特征包括如下步骤:步骤1:根据输入的数据集建立一个文献信息网络;步骤2:利用步骤1中得到的文献信息网络,对文献集合进行遍历,对文献标题进行特征提取;步骤3:按照元路径对步骤1中生成的文献信息网络进行遍历,统计作者在同一个会议中发表的论文数;步骤4:对步骤1中生成的文献信息网络中的作者进行遍历,利用在步骤3中得到的统计结果和步骤2中得到的文献标题特征向量与输入的查询作者进行相似度计算;步骤5:对计算完成的作者集合按照相似度大小进行降序排序,输出最相似的前k个作者。2.根据权利要求1所述的一种基于文献标题语义信息的相似作者搜索方法,其特征在于,在步骤2中,对文献标题进行特征提取,使用doc2vec神经网络语言模型,将文献标题映射成为特征向量:其中V代表特征向量,T代表特征向量的维度。3.根据权利要求1所述的一种基于文献标...

【专利技术属性】
技术研发人员:彭德中邱庆羽
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1