System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,具体而言,本申请涉及一种学术论文推荐方法、装置、电子设备及计算机可读存储介质。
技术介绍
1、在探索科学与技术联系的过程中,专利文献和学术论文被证实是科技关联的关键信号。另外,在专利审查过程中,授予专利的必要条件是公开与专利专利技术相关的现有技术,而学术论文作为一种现有技术,如何快速定位到相关的学术论文也十分重要。
2、目前,大多推荐技术主要集中于同质推荐(为目标专利推荐相关的专利文献,为目标论文推荐相关的学术论文),而异质推荐(为目标专利推荐相关的学术论文,为目标论文推荐相关的专利文献)在很大程度上未得到充分重视。现有异质推荐技术主要采用主题模型挖掘专利文献与学术论文中的内容语义信息,普遍忽视了专利文献与学术论文语言体系的差异性以及二者丰富的关联关系,从而使得推荐结果存在较大偏差。
技术实现思路
1、本申请实施例提供了一种学术论文推荐方法、装置、电子设备及计算机可读存储介质,可以解决现有技术的上述问题。技术方案如下:
2、根据本申请实施例的第一方面,提供了一种学术论文推荐方法,其特征在于,方法包括:
3、确定目标专利文献和至少一个参考学术论文;
4、使用目标分类模型,从至少一个参考学术论文中确定与目标专利文献具有直接引用关系的学术论文,作为待推荐的学术论文;
5、其中,目标分类模型由多个正样本和多个负样本对初始目标分类模型训练得到;
6、正样本包括存在直接引用关系的专利文献和学术论文;
>7、负样本包括存在非直接引用关系的专利文献和学术论。
8、作为一种可选地实施方式,多个正样本和多个负样本通过以下步骤获得通过以下步骤获得,包括:
9、获取目标领域的数据集,数据集包括目标领域的多个专利文献和多个学术论文,确定各专利文献与学术论文间的互相引用关系;
10、根据数据集构建异质信息网络,异质信息网络包括多种类型的节点,并且任意两个具有关联关系的节点之间具有连线,作为异质信息网络的边;多种类型包括:专利文献类型、学术论文类型,以及撰稿人类型、领域实体类型和共同主题类型中的至少一者;
11、根据异质信息网络,确定异质信息网络中目标节点对的元路径以及元路径的第一路径特征;目标节点对的起始节点为专利文献类型的节点,终止节点为学术论文类型的节点;
12、将目标节点对的元路径按照经过的中间节点的类型,划分到多个类别的元路径集,元路径集包括多个目标节点对的元路径以及元路径的第二路径特征,中间节点是元路径上除目标节点对外的其他节点;
13、确定各元路径的分类标签,分类标签用于指示元路径对应的目标节点对的引用关系;
14、根据各元路径的分类标签,将各元路径集中元路径的第二路径特征划分为正样本或负样本。
15、作为一种可选地实施方式,根据数据集构建异质信息网络,包括:
16、识别数据集中专利文献和学术论文包括的撰稿人、领域实体和共同主题中的至少一者;
17、根据专利文献和学术论文,以及撰稿人、领域实体和共同主题中的至少一者,确定多种类型的节点,根据任意两个节点之间的关联关系,确定异质信息网络的边;
18、共同主题是数据集中专利文献的主题和学术论文的主题中相同的主题。
19、作为一种可选地实施方式,根据异质信息网络,确定异质信息网络中目标节点对的元路径以及元路径的第一路径特征,包括:
20、根据异质信息网络的边,确定专利文献类型的节点和学术论文类型的节点的一个或多个路径模式,每种路径模式用于指示专利文献类型的节点和学术论类型的节点间的路径;
21、根据每种路径模式包括的节点和边,确定每个目标节点对的元路径和元路径的第一路径特征。
22、作为一种可选地实施方式,根据多个正样本和多个负样本对初始分类模型进行训练,得到目标分类模型,包括:
23、将多个正样本和多个负样本按照预定的比例随机划分到训练集和测试集;
24、使用训练集对初始分类模型的参数进行调优,得到优化后的参数;
25、将优化后的参数带入初始分类模型,并使用测试集对初始分类模型进行测试;
26、若测试结果符合预期要求,则确定优化后的参数为最优参数,获得目标测试模型;
27、若测试结果不符合预期要求,则使用训练集对初始分类模型的参数重复调优,直到测试结果符合预期要求为止。
28、作为一种可选地实施方式,根据多个正样本和多个负样本对初始分类模型进行训练,得到目标分类模型,之前还包括:
29、对多个正样本和多个负样本进行平衡化处理;
30、其中,所采用的平衡化处理方法,包括:正样本过采样法、负样本欠采样法和决策曲线分析法中的至少一者。
31、作为一种可选地实施方式,中间节点的类型,包括以下至少一者:
32、仅领域实体类型;
33、仅撰稿人类型;
34、仅共同主题类型;
35、领域实体类型和撰稿人类型;
36、撰稿人类型和共同主题类型;
37、领域实体类型和共同主题类型;
38、领域实体类型、撰稿人类型和共同主题类型。
39、根据本申请实施例的第二方面,提供了一种学术论文推荐装置,装置包括:
40、确定目标专利文献模块:确定目标专利文献和至少一个参考学术论文;
41、获取待推荐的学术论文模块:使用目标分类模型,从至少一个参考学术论文中确定与目标专利文献具有直接引用关系的学术论文,作为待推荐的学术论文;
42、其中,目标分类模型由多个正样本和多个负样本对初始目标分类模型训练得到;
43、正样本包括存在直接引用关系的专利文献和学术论文;
44、负样本包括存在非直接引用关系的专利文献和学术论文。
45、根据本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,处理器执行计算机程序以实现如第一方面所提供的方法的步骤。
46、根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述第一方面所提供的方法的步骤。
47、本申请实施例提供的技术方案带来的有益效果是:
48、本申请实施例通过构建专利文献与学术论文间的异质信息网络,充分融合专利文献与学术论文间丰富的关联关系,实现专利文献与学术论文间的链路预测,高效的为专利文献提供待推荐的学术论文。
本文档来自技高网...【技术保护点】
1.一种学术论文推荐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多个正样本和多个负样本通过以下步骤获得,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据集构建异质信息网络,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述异质信息网络,确定所述异质信息网络中目标节点对的元路径以及所述元路径的第一路径特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个正样本和多个负样本对初始分类模型进行训练,得到目标分类模型,包括:
6.根据权利要求2所述的方法,其特征在于,所述根据所述多个正样本和多个负样本对初始分类模型进行训练,得到目标分类模型,之前还包括:
7.根据权利要求2所述的方法,其特征在于,所述中间节点的类型,包括以下至少一者:
8.一种学术论文推荐装置,其特征在于,所述装置包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
...【技术特征摘要】
1.一种学术论文推荐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多个正样本和多个负样本通过以下步骤获得,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据集构建异质信息网络,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述异质信息网络,确定所述异质信息网络中目标节点对的元路径以及所述元路径的第一路径特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个正样本和多个负样本对初始分类模型进行训练,得到目标分类模型,包括:
6.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。