一种基于链接分析的引文推荐方法及系统技术方案

技术编号:25042407 阅读:32 留言:0更新日期:2020-07-29 05:33
本发明专利技术公开了一种基于链接分析的引文推荐方法及系统,包括:构建有向加权引用网络;将引用网络划分为网络集群;为网络集群选择代表节点;为新建论文选择候选网络集群;将相似度最高的节点加入候选引文推荐集,计算节点间的链接度;选择链接度高于第二阈值的节点加入候选引文推荐集;继续选择节点加入候选引文推荐集;获取第一时间段内发表的论文作为第一论文,预测第一论文的引用次数;获取第三时间段内发表的论文作为第二论文;计算第一论文、第二论文引用次数增长度;将引用次数增长度大于第四阈值的论文加入候选引文推荐集。本发明专利技术对社区网络的引文推荐进行优化,提高了推荐的准确性,同时对发表时间短的论文进行预测,使推荐的引文更加全面。

【技术实现步骤摘要】
一种基于链接分析的引文推荐方法及系统
本专利技术涉及文档搜索领域,具体涉及一种基于链接分析的引文推荐方法及系统。
技术介绍
一篇学术论文需要引用之前相关的重要工作来帮助读者了解它的背景和创新点,科研人员通常想要快速地了解这个领域中己有的文献,包括哪些论文是最相关的,这些论文中有哪些子主题等。随着学术论文数量的不断增加,由学术论文及其参考文献形成的引文网络正在成为一个规模巨大的复杂网络。引文分析在文献检索和论文推荐中具有重要的作用。公开号为CN110674318A的专利技术专利申请公开了一种基于引文网络社区发现的数据推荐方法,基于作者之间的合著关系、论文之间的共引和祸合关系,构建引文网络;将引文网络划分成多个社区网络;基于论文与数据集之间的相似度,建立数据集与社区网络之间的关联;将与数据集建立起关联的社区网络中各论文节点进行叠加去重,再进行数据推荐。上述申请虽然提及了基于引文网络社区发现进行推荐,但是其是将数据集与社区网络进行关联,以进行数据推荐。即使是同一社区网络中的论文其社区影响力也是不同的,进行引文推荐的概率也完全不同。且论文的引用是动态变化的,发表时间长短也对论文的引用有很大的影响,新发表的技术性先进的论文可能存在引用量小等问题,因此,上述申请的论文推荐方法存在准确率低的问题,如何针对现有的引文推荐的问题,实现高准确率、高质量的引文推荐,是本领域亟待解决的问题。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供了一种基于链接分析的引文推荐方法及系统。本专利技术对社区网络的引文推荐进行优化,提高了推荐的准确性,同时对发表时间短的论文进行预测,使推荐的引文更加全面。为了实现以上目的,本专利技术采用以下技术方案:一种基于链接分析的引文推荐方法,包括步骤:S1、基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;S2、将所述有向加权引用网络划分为多个网络集群;S3、为每个所述网络集群选择影响力最大的节点作为代表节点;S4、基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;S5、将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;S6、选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;S7、获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;S8、获取第三时间段内发表的论文作为第二论文,第三时间段=第一时间段+第二时间段;计算所述第一论文、第二论文的引用次数增长度;S9、将所述引用次数增长度大于第四阈值的论文加入所述候选引文推荐集得到最终引文推荐集,向用户推荐引文推荐集中的论文作为新建论文的引文。进一步地,具有引用关系的论文的所述作者相似性为:其中,、分别为作者相同、作者合作所占的权重,;为论文具有的相同作者个数,为论文中具有合作关系的作者对数,为第对具有合作关系的作者合作完成的论文数;具有引用关系的论文、的所述内容相似性为:其中,为论文第维的值,为论文o第维的值,为论文向量的维度;具有引用关系的论文的相似性为:其中,为作者相似性的权重;所述有向加权引用网络中边的权值为边所连接论文的相似性。进一步地,所述步骤S2具体为:S21、选择有向加权引用网络中节点度数最高的论文节点作为初始节点,设置i=1;S22、将所述初始节点加入新建立的集群SCi;S23、获取与SCi中的论文节点连接、且不属于任何已建立的集群的点,加入候选集群;若候选集群为空集,执行步骤S25;S24、判断候选集群中与集群SCi中论文节点的连接边的最大权值是否大于第一阈值,若是,选择最大权值对应的论文节点及连接边加入集群SCi,继续执行步骤S23;若否,i=i+1,执行步骤S25;S25、判断有向加权引用网络中是否存在不属于任何集群的论文节点,若是,选择不属于任何集群的度数最高的论文节点作为初始节点,执行步骤S22,若否,输出集群SC1、SC2、...、SCi、...、SCx,其中,x为网络集群的个数。进一步地,节点i的所述影响力为:其中,网络集群中引用节点i的节点个数,为第j个引用节点i的节点在网络集群中被引用的次数,,为引用第j个引用节点i的节点中同时引用节点i的节点个数。进一步地,所述步骤S4包括:选择与新建论文的相似性最大的网络集群作为候选网络集群;新建论文与网络集群SCi的相似性为:其中,M为SCi中论文节点的数量,为新建论文与第j个论文节点间的相似性,。进一步地,邻居节点i与第一节点的链接度为:其中,为邻居节点i的度数,为邻居节点除去起点外的度数,为当前网络集群中节点度数的均值,为的协方差,为的方差。进一步地,所述步骤S7具体为:S71、计算第一论文与引用网络中节点的相似性;S72、选择相似性超过第三阈值的节点加入相似节点集合;S73、基于相似节点集合中节点从论文发表日起至发表日后第三时间段段内的引用次数,拟合预测第一论文未来第二时间段内的引用次数,第三时间段=第一时间段+第二时间段。进一步地,论文节点i的所述引用次数增长度为:其中,为论文从发表时间起j时间段内的引用次数,j的单位为年,其中,,对于第一论文,T为第三时间段,对于第二论文,T为论文的发表时间和推荐时间的时间差。进一步地,所述包括实际的论文引用次数及预测的论文引用次数。本专利技术还提出一种基于链接分析的引文推荐系统,用于实现上述的引文推荐方法,其特征在于,包括:网络构建模块,用于基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;集群划分模块,用于将所述有向加权引用网络划分为多个网络集群;代表节点选择模块,用于为每个所述网络集群选择影响力最大的节点作为代表节点;候选网络集群选择模块,用于基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;链接度计算模块,用于将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;候选引文推荐集构建模块,用于选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;引用预测模块,用于获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;增长度计算模块,用于获取第三时间段内发表的论文作为本文档来自技高网...

【技术保护点】
1.一种基于链接分析的引文推荐方法,其特征在于,包括步骤:/nS1、基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;/nS2、将所述有向加权引用网络划分为多个网络集群;/nS3、为每个所述网络集群选择影响力最大的节点作为代表节点;/nS4、基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;/nS5、将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;/nS6、选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;/nS7、获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;/nS8、获取第三时间段内发表的论文作为第二论文,第三时间段=第一时间段+第二时间段;计算所述第一论文、第二论文的引用次数增长度;/nS9、将所述引用次数增长度大于第四阈值的论文加入所述候选引文推荐集得到最终引文推荐集,向用户推荐引文推荐集中的论文作为新建论文的引文。/n...

【技术特征摘要】
1.一种基于链接分析的引文推荐方法,其特征在于,包括步骤:
S1、基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;
S2、将所述有向加权引用网络划分为多个网络集群;
S3、为每个所述网络集群选择影响力最大的节点作为代表节点;
S4、基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;
S5、将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;
S6、选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;
S7、获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;
S8、获取第三时间段内发表的论文作为第二论文,第三时间段=第一时间段+第二时间段;计算所述第一论文、第二论文的引用次数增长度;
S9、将所述引用次数增长度大于第四阈值的论文加入所述候选引文推荐集得到最终引文推荐集,向用户推荐引文推荐集中的论文作为新建论文的引文。


2.根据权利要求1所述的引文推荐方法,其特征在于,具有引用关系的论文的所述作者相似性为:



其中,、分别为作者相同、作者合作所占的权重,;为论文具有的相同作者个数,为论文中具有合作关系的作者对数,为第对具有合作关系的作者合作完成的论文数;
具有引用关系的论文、的所述内容相似性为:



其中,为论文第维的值,为论文o第维的值,为论文向量的维度;
具有引用关系的论文的相似性为:



其中,为作者相似性的权重;
所述有向加权引用网络中边的权值为边所连接论文的相似性。


3.根据权利要求1所述的引文推荐方法,其特征在于,所述步骤S2具体为:
S21、选择有向加权引用网络中节点度数最高的论文节点作为初始节点,设置i=1;
S22、将所述初始节点加入新建立的集群SCi;
S23、获取与SCi中的论文节点连接、且不属于任何已建立的集群的点,加入候选集群;若候选集群为空集,执行步骤S25;
S24、判断候选集群中与集群SCi中论文节点的连接边的最大权值是否大于第一阈值,若是,选择最大权值对应的论文节点及连接边加入集群SCi,继续执行步骤S23;若否,i=i+1,执行步骤S25;
S25、判断有向加权引用网络中是否存在不属于任何集群的论文节点,若是,选择不属于任何集群的度数最高的论文节点作为初始节点,执行步骤S22,若否,输出集群SC1、SC2、...、SCi、...、SCx,其中,x为网络集群的个数。


4.根据权利要求1所述的引文推荐方法,其特征在于,节点i的所述影响力为:



其中,网络集群中引用节点i的节点个数,为第j个引用节点i的节点在网络集群中被引用的次数,,...

【专利技术属性】
技术研发人员:冯雅吴宗羲
申请(专利权)人:杭州灿八科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1