【技术实现步骤摘要】
基于多类型学术成果画像及混合推荐策略的个性化推荐方法
本专利技术涉及计算机
,尤其涉及一种基于多类型学术成果画像及混合推荐策略的个性化推荐方法。
技术介绍
随着学术研究蓬勃发展,学术成果呈大幅增长趋势。海量的学术成果资源给用户带来困扰,他们无法从大量的资源中获得自己真正需要的资源,使得学术资源的使用率降低。并且随着信息的多样化和个性化,用户对学术资源的需求也逐渐多样化和个性化。在此情形下,根据用户的信息和个人偏好建立用户模型,并采用推荐算法为用户推荐学术信息等。另外,当前学术成果资源的个性化推荐的研究对象比较单一。但实际上学术资源比较丰富,除了论文外,还有期刊、会议、作者、机构和基金等。针对用户的兴趣为用户提供丰富的学术成果资源,会给用户带来更好的服务体验。画像作为用户与学术成果的桥梁,为多类型的学术成果进行画像,可以为用户精准的匹配感兴趣的学术资源。作为推荐系统的核心模块,推荐算法比较多,各种推荐算法都各有利弊。例如,基于内容方法所以会出现新用户的冷启动问题。由于该方法是将推荐对象的内容特征和用户的兴趣匹配获 ...
【技术保护点】
1.基于多类型学术成果画像及混合推荐策略的个性化推荐方法,其特征在于,所述方法包括:为用户和学术成果画像,以及对每种学术成果采用合适的推荐策略;/n所述为用户和学术成果画像包括用户画像、论文画像、期刊画像、学者画像、学科画像与基金画像;所述用户画像,根据用户行为属性信息抽象出的一个标签化的用户模型;具体包括:获取目标用户的最近下载记录和检索记录,然后根据一些规则提取用户关键词,基于词向量模型获取用户关键词的相关词作为用户动态兴趣标签;所述论文画像,获取论文的向量表示后,对论文进行聚合,取类中心文件名,中心文件名的关键词作为该类论文的标签,即为论文进行画像;所述期刊画像是指对 ...
【技术特征摘要】
1.基于多类型学术成果画像及混合推荐策略的个性化推荐方法,其特征在于,所述方法包括:为用户和学术成果画像,以及对每种学术成果采用合适的推荐策略;
所述为用户和学术成果画像包括用户画像、论文画像、期刊画像、学者画像、学科画像与基金画像;所述用户画像,根据用户行为属性信息抽象出的一个标签化的用户模型;具体包括:获取目标用户的最近下载记录和检索记录,然后根据一些规则提取用户关键词,基于词向量模型获取用户关键词的相关词作为用户动态兴趣标签;所述论文画像,获取论文的向量表示后,对论文进行聚合,取类中心文件名,中心文件名的关键词作为该类论文的标签,即为论文进行画像;所述期刊画像是指对作者发文量、作者跨刊发文量、作者论文被引频次、期刊论文被引频次指标分别进行期刊画像;学者画像,是提取学者各维度的属性信息进行信息挖掘和分析应用;
对每种学术成果采用合适的推荐策略包括基于项目协同过滤推荐及基于内容推荐。
2.如权利要求1所述的基于多类型学术成果画像及混合推荐策略的个性化推荐方法,其特征在于,所述用户画像的构建过程包括:
数据准备:提取用户检索、下载和浏览日志,对用户行为日志数据进行清洗、整理、合并处理;
用于行为建模:根据用户下载或浏览的论文的序列,把论文文件名看作词,采用CBOW方法训练出每个论文文件名对应的向量,该技术称为item2vec,根据item2vec得到的论文向量可以计算论文之间的相似度值,及根据用户词序列训练word2vec模型,得到每个词的对应向量和相关词集合;
用户动态兴趣标签构建。
3.如权利要求2所述的基于多类型学术成果画像及混合推荐策略的个性化推荐方法,其特征在于,所述用户动态兴趣标签构建具体包括:
1)分别取目标用户的top10的检索历史和top3的下载历史;
2)分别记录最近一条下载记录和检索记录的操作时间;
3)遍历下载记录,判断距离最近下载的时间差是否小于阈值,并保留满足条件的记录;遍历检索记录,判断距离最近检索的时间差是否小于阈值,并保留满足条件的记录;
4)根据最近一条下载记录和检索记录的操作时间的差与阈值的关系分情况处理并动态设置不同行为的影响因子;
5)将关键词和检索词存入到哈希map中并排序,取topN作为用户的近期动态兴趣标签。
4.如权利要求1所述的基于多类型学术成果画像及混合推荐策略的个性化推荐方法,其特征在于,所述论文画像包括论文分类、论文新颖度计算;
所述论文分类的划分步骤包括:
1)从大样本里随机选取几个小样本,采用KMeans、DBSCAN聚类算法对小样本进行聚类;
2)基于聚合出来的类别对剩下的论文样本进行分类;
3)对于未分类出来的样本继续执行第1)和第2),直到将所有的样本划分好类别;
所述论文新颖度的计算包括:
1)提取目标论文的中心句,中心句由标题和包含前三个关键词的摘要句子组成;
2)基于BERT模型,获得论文每个中心句的向量表示然后叠加;
3)获取与目标论文同领域的历史论文的向量表示;
4)利用simase-lstm网络计算两个向量之间的相似;
5)计算文本信息量,计算公式为:
其中,论文T,包含λ个词条,n表示不同词条个数,pi(i=1...n)表示论文T中第i个词条出现的概率;
6)计算目标论文新颖度值,计算...
【专利技术属性】
技术研发人员:马红霞,谢炜,
申请(专利权)人:同方知网北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。