The invention discloses a method of user literature reading interest mining based on depth learning, in which a method of user reading interest mining based on depth learning is used to collect user historical literature browsing logs and to calculate the distance between the length of the time and the time of the last reading of the literature. Different weights are given to each document at the time of time. Secondly, the word vector model based on depth learning is used to expand the result of the word segmentation of the literature title of user history. The invention is used to excavate the potential reading interest of users, improve the accuracy of document recommendation, and improve the efficiency of user information retrieval.
【技术实现步骤摘要】
一种基于深度学习的用户文献阅读兴趣分析方法
本专利技术属于数据分析领域,特别涉及一种基于深度学习的用户文献阅读兴趣分析方法。
技术介绍
目前,随着互联网上文献资料的日益增多,越来越多的用户感觉获取大量真正对自己有帮助的文献资料是一件非常困难的事情。相比较于电子商务领域,用户个人兴趣分析已经运用到大多数的电子商务网站中,如淘宝网、亚马逊、YouTube等都在自己的推荐服务中嵌入了用户偏好分析模块并取得了很好的业绩。但是,在文献检索领域,都采用一种基于信息匹配的信息检索方式,根据用户每次输入的检索关键词,将数据库中与其最匹配的文献推送给用户。这种文献检索方式产生的推荐文献内容单一,不能满足用户潜在的阅读偏好,同时用户会拥有较低的惊喜度。因此需要找到一种简单、高效的用户阅读兴趣分析方法。2009年到2017年,专利技术人给出了Web文本处理与推送的的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759;SuqunCao,QuanyinZhu,ZhiweiHou.CustomerSegmentationBasedonaNovelHierarchicalClusteringAlgorithm.2009,p:1-5(EI:20100412657161);QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82(EI:20095012543848) ...
【技术保护点】
1.一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,包括如下步骤:步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合。
【技术特征摘要】
1.一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,包括如下步骤:步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合。2.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤一中计算文献权重的具体步骤如下:步骤1.1:定义用户历史浏览文档集,文档关键词集;步骤1.2:收集用户历史浏览文档集并获取文档集中每篇文档的关键词;步骤1.3:收集用户的历史记录信息,将其浏览每篇文献的时间长度进行最小-最大归一化处理,并将归一化处理后的值作为每篇文献的权重值。3.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:步骤2.1:定义每篇文献开始阅读时刻距离目前的时间距离集,待分析文档集;步骤2.2:从用户的历史记录信息中计算用户最后一次阅读每篇文献结束距离当前时刻的时长,对于时间长度低于所设定阈值的文献进行剔除,获得待分析文档集。4.根据权利要求3所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:步骤3.1:定义文档标题预处理集,文档临时关键词集,文档词语权值集,用户临时阅读偏好集;步骤3.2:对待分析文档集中文档的关键词进行分词、取除停用词等预处理工作,将得到的词语集合存入文档标题预处理集;步骤3.3:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词;步骤3.4:利用词向量计算每篇文档的标题预处理集中的每个词语与文档的临时关键词集中的词语相似度,将标题预处理集中每个词语与文档的临时关键词集中的词语计算出的最大相似度作为得分,同时,将每个词语的得分与所在文献的权重相乘,将结果作为每个词语的权值,最后得到标题预处理集中每个词语的权值集;步骤3.5:对标题预处理集中每个词语的权值集中得分低于所设阈值的词语进行剔除,得到用户临时阅读偏好集合PR,若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值。5.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:步骤4.1:定义用户临时阅读偏好集合FPR;步骤4.2:保留PR中权值排名前50%的词语;步骤4.3:将KW中的词语加入到PR中,得到用户临时阅读偏好集合FPR。6.根据权利要求4所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤2.2中时长阈值设置为10天;步骤3.5中有效词语阈值设置为0.581。7.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤一中计算文献权重的具体步骤如下:步骤11:收集用户历史浏览文献集D={d1,d2,...,dG},其中,G为全局变量且为整数,表示文档集D中的文档总数;步骤12:获取文档集D={d1,d2,...,dG}中所有文档的关键词并存入关键词集合KW={数据挖掘,信息检索,个性化,个性化推荐,粗糙集,文本分类,SVM,个性化系统,推荐系统,信息抽取,信息增益},其中,p为KW中关键词总数;步骤13:收集用户的文献浏览行为记录,将用户对每篇文档的浏览时间进行归一化处理,所采用的归一化方法为最大-最小标准化,其公式为:norvalue=(value-minA)/(maxA-minA...
【专利技术属性】
技术研发人员:朱全银,唐海波,严云洋,李翔,胡荣林,瞿学新,邵武杰,许康,赵阳,钱凯,高阳,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。