一种学术资源推荐服务系统与方法技术方案

技术编号：15617076 阅读：113 留言：0更新日期：2017-06-14 03:37

提供一种学术资源推荐服务系统与方法，用基于LDA的主题爬虫在互联网上爬取学术资源，用基于LDA的文本分类模型按预定A个类别分类后存储于本地的学术资源数据库，还包括学术资源模型、资源质量值计算模型、用户兴趣模型，在用户的终端殖入跟踪软件模块，结合用户的兴趣学科和历史浏览行为数据，学术资源类型、学科主题分布、关键词分布和LDA潜在主题分布共四个维度分别对学术资源模型和用户兴趣模型进行建模，计算学术资源模型与用户兴趣偏好模型之间的相似度,再结合资源质量值计算推荐度，最后根据推荐度为用户进行学术资源Top‑N推荐；本发明专利技术根据用户身份、兴趣和浏览行为进行学术资源的个性化的精准推荐，提高科研人员的工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种学术资源推荐服务系统与方法
本专利技术涉及计算机应用
，尤其涉及一种学术资源推荐服务系统与以资源推荐服务系统为相关用户提供学术资源推荐服务的方法。
技术介绍
目前已经进入大数据时代，在学术资源领域尤其如此，每年都有数以亿计的各类学术资源产生。除了学术论文、专利之外，还有大量的学术会议、学术新闻和学术社区信息等各类学术资源实时涌现，这些类型的学术资源对于用户精准、高效地掌握感兴趣领域的科研现状意义重大。然而，科研用户平时有繁重的科研工作，这类学术资源具有大数据异质、异构且快速增长的特性，在学术资源中基于传统搜索引擎的方式很难查全、查准，搜索过程也显得繁琐，用户在查询感兴趣的学术资源往往需花费大量的时间和精力，影响其工作效率。当前学术资源个性化推荐研究的对象主要专注于学术论文，推荐学术资源类型单一；不同的用户群体，即不同身份的用户对不同类型学术资源的关注程度不同，当前学术资源的个性化推荐研究并没有考虑这些因素，不能基于用户身份制定多策略的推荐方案。并且，当前学术资源推荐研究仅局限于推荐模块，本专利技术则为学术资源推荐提供系统化的服务，从学术资源的动态获取、整合和分类，到基于用户身份、行为和兴趣学科进行学术资源的个性化推荐，形成以资源整合和推荐为核心的一体化服务体系。LDA(LatentDirichletAllocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。主题是指某...
一种学术资源推荐服务系统与方法

【技术保护点】
一种学术资源推荐服务系统，所述学术资源为公布在互联网上的各种电子文本，所述学术资源推荐服务系统包括网络爬虫、文本分类模型、位于本地的待推荐学术资源数据库，由网络爬虫在互联网上爬取学术资源，其特征在于，用文本分类模型按预定A个类别分类后存储于本地的待推荐学术资源数据库，提供学术资源数据库开放的API供展示及资源推荐模块调用，所述学术资源推荐服务系统还包括学术资源模型、资源质量值计算模型、用户兴趣模型，在用户的终端殖入跟踪软件模块，用于跟踪记录用户的网上浏览行为；基于不同群体用户的历史浏览行为数据，计算不同身份的用户对各个类型学术资源的关注程度，从资源类型、学科分布、关键词分布和LDA潜在主题分布共四个维度对学术资源建模，结合用户的兴趣学科和历史浏览行为数据，对用户兴趣模型建模，计算学术资源模型与用户兴趣模型之间的相似度,再结合资源质量值计算推荐度，最后根据推荐度为用户进行学术资源Top‑N推荐。

【技术特征摘要】
1.一种学术资源推荐服务系统，所述学术资源为公布在互联网上的各种电子文本，所述学术资源推荐服务系统包括网络爬虫、文本分类模型、位于本地的待推荐学术资源数据库，由网络爬虫在互联网上爬取学术资源，其特征在于，用文本分类模型按预定A个类别分类后存储于本地的待推荐学术资源数据库，提供学术资源数据库开放的API供展示及资源推荐模块调用，所述学术资源推荐服务系统还包括学术资源模型、资源质量值计算模型、用户兴趣模型，在用户的终端殖入跟踪软件模块，用于跟踪记录用户的网上浏览行为；基于不同群体用户的历史浏览行为数据，计算不同身份的用户对各个类型学术资源的关注程度，从资源类型、学科分布、关键词分布和LDA潜在主题分布共四个维度对学术资源建模，结合用户的兴趣学科和历史浏览行为数据，对用户兴趣模型建模，计算学术资源模型与用户兴趣模型之间的相似度,再结合资源质量值计算推荐度，最后根据推荐度为用户进行学术资源Top-N推荐。2.如权利要求1所述的学术资源推荐服务系统，其特征在于，所述网络爬虫为主题爬虫，并配置LDA主题模型，所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型，预先为所述LDA主题模型配置一个语料库，语料库中包括训练语料，用训练语料按设定主题数K让LDA主题模型训练，利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合，即得到主题爬虫本次爬行的K个主题文档；所述主题爬虫在普通网络爬虫的基础上进一步包括主题确定模块、相似度计算模块、URL优先级排序模块；所述主题爬虫为按学术主题数分布的多个分布式爬虫，每个分布式爬虫对应一个学术主题，各分布式爬虫同时获得多个学术主题的学术资源；主题爬虫每次爬行过程中，主题爬虫的主题确定模块确定目标主题及其主题文档，用所述主题文档指导主题相似度的计算，相似度计算模块对所爬取的页面上每个锚文本并结合该页面内容进行主题相似度计算及判断，剔除锚文本结合该页面的主题相似度小于设定阈值的超链接，选取锚文本结合该页面的主题相似度大于设定阈值的URL，由主题爬虫维护一个由已访问网页的超链接所指的未访问网页的URL队列，该URL队列根据相似度高低降序排列，主题爬虫按URL队列的排列顺序先后不断地访问各URL的网页，爬取相应学术资源，并不断地将所爬取的学术资源分类标签后存入数据库，针对本次爬行的主题文档，直至未访问队列URL为空；将所述主题爬虫每次所爬取的学术资源作为LDA主题模型训练用的新的语料；并不断重复主题爬虫爬行过程，使得各主题文档的所集合的主题关联词不断得以补充更新，所爬取的学术资源不断得以补充更新至一个人为认可的程度。3.如权利要求2所述的学术资源推荐服务系统，其特征在于，所述语料库中还包括类别明确的验证语料，用于预先用验证语料按预定类别数A让所述文本分类模型进行分类验证，以获得文本分类模型对A个类别中的每个类别的分类准确率，作为文本分类模型对A个类别中的每个类别的归类可信度指标；该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率，并预设分类准确率阈值。4.如权利要求3所述的学术资源推荐服务系统，其特征在于，将所有学科分为75个学科类别，即所述类别数A为75个类别，利用LDA主题模型训练时设定主题数K为100个，所述文本分类模型进行分类验证时预设分类准确率阈值为80％。5.一种以资源推荐服务系统为相关用户提供学术资源推荐服务的方法，所述学术资源为公布在互联网上的各种电子文本，包括使用网络爬虫在互联网上爬取学术资源，其特征在于，使用文本分类模型将所爬取的学术资源按预定A个类别进行分类后存储，形成学术资源数据库，提供学术资源数据库开放的API供展示及资源推荐模块调用，使用学术资源模型、资源质量值计算模型、用户兴趣模型，在用户的终端殖入跟踪软件模块，用于跟踪记录用户的网上浏览行为；向用户推荐其相应的学术资源的过程包括冷启动推荐阶段与二次推荐阶段，冷启动推荐阶段基于兴趣学科为用户推荐符合其兴趣学科的优质资源，所述优质资源即为经资源质量值计算模型计算后比较所得的资源质量值高的学术资源，资源质量值为资源权威度、资源社区热度和资源时新度的算术平均值或加权平均值；二次推荐阶段，分别对用户兴趣模型和资源模型建模，计算用户兴趣模型与资源模型二者的相似性，再结合资源质量值计算推荐度，最后根据推荐度为用户进行学术资源Top-N推荐。6.如权利要求5所述的方法，其特征在于，所述资源质量值Quality计算包括，资源的权威度Authority的计算公式如下：其中Level是资源发表刊物级别被量化后的得分，将刊物级别分为5个等级，分数依次为1、0.8、0.6、0.4和0.2分。顶尖杂志或会议如Nature、Science得1分，第二级别的如ACMTransaction得0.8分,最低级别的得0.2分；Cite的计算公式如下：Cite＝Cites/maxCite(2)Cite是资源被引量的量化结果，Cites是资源的被引量，maxCite是资源来源数据库中最大的被引量；资源社区热度Popularity的计算公式如下：Popularity＝readTimes/maxReadTimes(3)readTimes是论文的阅读次数，maxReadTimes是资源来源数据库中最大的阅读次数；资源的时新度Recentness计算方法相同，公式如下：year和month分别是资源的发表年份和月份；minYear、minMonth、maxYear和maxMonth是该类资源的来源数据库中所有资源的最早和最晚发表年份和月份；资源质量值Quality计算方法如下：7.如权利要求5所述的方法，其特征在于，所述学术资源模型表示如下：Mr＝{Tr,Kr,Ct,Lr}(6)其中，Tr为学术资源的学科分布向量，是该学术资源分布在A个学科类别的概率值，由贝叶斯多项式模型得到；Kr＝{(kr1,ωr1),(kr2,ωr2),…,(krm,ωrm)}，m为关键词个数，kri(1≤i≤m)表示单条学术资源第i个关键词，ωri为关键词kri的权重，通过改进后的tf-idf算法得到，计算公式如下：w(i,r)表示文档r中第i个关键词的权重，tf(i,r)表示第i个关键词在文档r中出现的频度，Z表示文档集的总篇数，L表示包含关键词i的文档数；Lr为潜在主题分布向量，Lr＝{lr1,lr2,lr3…,lrN1},N1是潜在主题数量；Ct为资源类型,t的取值可以为1,2,3,4,5即五大类学术资源：论文、专利、新闻、会议和图书；根据用户使用移动软件的行为特点，将用户对一个学术资源的操作行为分为打开、阅读、星级评价、分享和收藏，用户兴趣模型基于用户背景及浏览过的学术资源，根据用户的不同浏览行为，结合学术资源...

【专利技术属性】
技术研发人员：刘柏嵩，王洋洋，尹丽玲，费晨杰，高元，
申请(专利权)人：宁波大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人