当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于深度学习的用户文献阅读兴趣分析方法技术

技术编号:18444946 阅读:14 留言:0更新日期:2018-07-14 10:23
本发明专利技术公开了一种基于深度学习的用户文献阅读兴趣挖掘方法,其中,采用了一种基于深度学习的用户阅读兴趣挖掘方法,收集用户历史文献浏览日志,计算用户浏览每篇文献的时长与最后一次阅读文献的时刻距离当前标准时刻的时长距离来对每篇文献赋予不同的权值,其次,通过基于深度学习的词向量模型对用户历史浏览过的文献标题的分词结果进行拓展。本发明专利技术用于挖掘用户潜在的阅读兴趣,提高文档推荐的准确率,提高用户信息检索的效率。

An approach to user interest analysis based on deep learning

The invention discloses a method of user literature reading interest mining based on depth learning, in which a method of user reading interest mining based on depth learning is used to collect user historical literature browsing logs and to calculate the distance between the length of the time and the time of the last reading of the literature. Different weights are given to each document at the time of time. Secondly, the word vector model based on depth learning is used to expand the result of the word segmentation of the literature title of user history. The invention is used to excavate the potential reading interest of users, improve the accuracy of document recommendation, and improve the efficiency of user information retrieval.

【技术实现步骤摘要】
一种基于深度学习的用户文献阅读兴趣分析方法
本专利技术属于数据分析领域,特别涉及一种基于深度学习的用户文献阅读兴趣分析方法。
技术介绍
目前,随着互联网上文献资料的日益增多,越来越多的用户感觉获取大量真正对自己有帮助的文献资料是一件非常困难的事情。相比较于电子商务领域,用户个人兴趣分析已经运用到大多数的电子商务网站中,如淘宝网、亚马逊、YouTube等都在自己的推荐服务中嵌入了用户偏好分析模块并取得了很好的业绩。但是,在文献检索领域,都采用一种基于信息匹配的信息检索方式,根据用户每次输入的检索关键词,将数据库中与其最匹配的文献推送给用户。这种文献检索方式产生的推荐文献内容单一,不能满足用户潜在的阅读偏好,同时用户会拥有较低的惊喜度。因此需要找到一种简单、高效的用户阅读兴趣分析方法。2009年到2017年,专利技术人给出了Web文本处理与推送的的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759;SuqunCao,QuanyinZhu,ZhiweiHou.CustomerSegmentationBasedonaNovelHierarchicalClusteringAlgorithm.2009,p:1-5(EI:20100412657161);QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82(EI:20095012543848);SuqunCao,ZhiweiyangWang,QuanyinZhu.KernelizedFuzzyFisherCriterionbasedClusteringAlgorithm.DCABES2010,p:87-91(EI:20104413349424);QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285(EI:20113714318072);QuanyinZhu,SuqunCao,PeiZhou,YunyangYan,HongZhou.IntegratedPriceForecastbasedonDichotomyBackfillingandDisturbanceFactorAlgorithm.InternationalReviewonComputersandSoftware,2011,Vol.6(6):1089-1093.(EI:20121814977597);SuqunCao,GelanYang,QuanyinZhu,HaiheiZhai.Anovelfeatureextractionmethodformechanicalpartrecognition.AppliedMechanicsandMaterials,2011,p:116-121(EI:20113814354316);PeiZhou,QuanyinZhu.Multi-factorMatchingMethodforBasicInformationofScienceandTechnologyExpertsBasedonWebMining.2012,P:718-720(EI:20123915469307);JianpingDeng,FengwenCao,QuanyinZhu,YuZhang.TheWebDataExtractingandApplicationforShopOnlineBasedonCommoditiesClassified.CommunicationsinComputerandInformationScience,Vol.234(4):120-128(EI:20113814340383);HuiZong,QuanyinZhu,MingSun,YahongZhang.Thecasestudyforhumanresourcemanagementresearchbasedonwebminingandsemanticanalysis.AppliedMechanicsandMaterials,Vol.488,2014p:1336-1339(EI:20140517249044));ExpertAchievementsModelforScientificandTechnologicalBasedonAssociationMining.DCABES2015,272-275(EI:20162902607720);AnIdentificationMethodofNewsScientificIntelligenceBasedonTF-IDF.DCABES2015,501-504(EI:20162902607645)。深度学习:深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。同样,深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。余弦相似度:余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。在计算之前,需要先将文献进行向量化,之后求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。词向量模型:词向量模型是自然语言处理领域的一个概念,它旨在将一个词语拓展到n维的向量空间中,它是一种基于深度学习的计算模型,得到词语的词向量后,通过余弦相似度计算词语与词语之间在语义上的相似度。常用的词向量计算工具是Google提出的word2vec。信息检索:信息检索是指按一定的方式组织信息,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是信息查寻。信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来,脱机批量情报检索系统、联机实时情报检索系统。自上世纪90年代开始,互联网上的数据量进入了爆炸式增长阶段。据2014年美国易安信(EMC)公司发布的一份数字宇宙(DigitalUniverse)报告得知,至2020年,全球的互联网上的数据总量将达到约44ZB,海量的数据造成的“信息过载”问题让信息检索人员耗费大量时间和精力用于在寻找对自己有价值的信息上。个性化推荐服务系统是解决“信息过载”问题本文档来自技高网...

【技术保护点】
1.一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,包括如下步骤:步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合。

【技术特征摘要】
1.一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,包括如下步骤:步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合。2.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤一中计算文献权重的具体步骤如下:步骤1.1:定义用户历史浏览文档集,文档关键词集;步骤1.2:收集用户历史浏览文档集并获取文档集中每篇文档的关键词;步骤1.3:收集用户的历史记录信息,将其浏览每篇文献的时间长度进行最小-最大归一化处理,并将归一化处理后的值作为每篇文献的权重值。3.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:步骤2.1:定义每篇文献开始阅读时刻距离目前的时间距离集,待分析文档集;步骤2.2:从用户的历史记录信息中计算用户最后一次阅读每篇文献结束距离当前时刻的时长,对于时间长度低于所设定阈值的文献进行剔除,获得待分析文档集。4.根据权利要求3所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:步骤3.1:定义文档标题预处理集,文档临时关键词集,文档词语权值集,用户临时阅读偏好集;步骤3.2:对待分析文档集中文档的关键词进行分词、取除停用词等预处理工作,将得到的词语集合存入文档标题预处理集;步骤3.3:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词;步骤3.4:利用词向量计算每篇文档的标题预处理集中的每个词语与文档的临时关键词集中的词语相似度,将标题预处理集中每个词语与文档的临时关键词集中的词语计算出的最大相似度作为得分,同时,将每个词语的得分与所在文献的权重相乘,将结果作为每个词语的权值,最后得到标题预处理集中每个词语的权值集;步骤3.5:对标题预处理集中每个词语的权值集中得分低于所设阈值的词语进行剔除,得到用户临时阅读偏好集合PR,若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值。5.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:步骤4.1:定义用户临时阅读偏好集合FPR;步骤4.2:保留PR中权值排名前50%的词语;步骤4.3:将KW中的词语加入到PR中,得到用户临时阅读偏好集合FPR。6.根据权利要求4所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤2.2中时长阈值设置为10天;步骤3.5中有效词语阈值设置为0.581。7.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤一中计算文献权重的具体步骤如下:步骤11:收集用户历史浏览文献集D={d1,d2,...,dG},其中,G为全局变量且为整数,表示文档集D中的文档总数;步骤12:获取文档集D={d1,d2,...,dG}中所有文档的关键词并存入关键词集合KW={数据挖掘,信息检索,个性化,个性化推荐,粗糙集,文本分类,SVM,个性化系统,推荐系统,信息抽取,信息增益},其中,p为KW中关键词总数;步骤13:收集用户的文献浏览行为记录,将用户对每篇文档的浏览时间进行归一化处理,所采用的归一化方法为最大-最小标准化,其公式为:norvalue=(value-minA)/(maxA-minA...

【专利技术属性】
技术研发人员:朱全银唐海波严云洋李翔胡荣林瞿学新邵武杰许康赵阳钱凯高阳
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1