适应于新学术平台的匿名用户行为挖掘与资源推荐方法技术

技术编号:26171386 阅读:17 留言:0更新日期:2020-10-31 13:43
本发明专利技术属于数据挖掘与分析、人工智能技术领域,具体为一种适应于新学术平台的匿名用户行为挖掘与资源推荐方法。本发明专利技术包括两个部分:(一)适应于新学术平台的匿名用户行为挖掘,以便全面刻画平台用户画像,便于后续为其推荐有用平台资源;(二)基于项集相似性计算的协同过滤个性化推荐,实现精准学术推荐,帮助各类用户从平台获得最大收益。本发明专利技术针对实际平台采用行之有效的措施挖掘匿名用户行为特征,对平台用户全方位画像,采用维数简化和项集相似性计算两个过程,在提高精确度的同时减少计算耗费,解决应用协同过滤技术的推荐系统所存在的稀疏性和扩展性问题,从而实现高效推荐。

【技术实现步骤摘要】
适应于新学术平台的匿名用户行为挖掘与资源推荐方法
本专利技术属于数据挖掘与分析、人工智能
,具体涉及一种适应于新学术平台的匿名用户行为挖掘与个性化推荐方法。
技术介绍
新学术平台是自主开发建设的平台(http://fae.shchuwa.cn/),平台提供论文首发系统、期刊数字化采编出版系统、新世纪人文社科类图书数据库和评价系统、学术入门推荐系统等功能。涉及的主要技术有:基于领域本体的知识挖掘技术、知识挖掘与知识元自动抽取技术、基于全文内容的分析技术;自然语言处理技术、大数据治理技术等等;句法分析技术、文本分类技术、数据挖掘技术、语义分析技术、机器学习方法。平台的建设,首先,是营造出公开透明的科技成果交流共享空间,有助于科研人员公平竞争;其次,是保障优秀科研成果首发权认定,有助于扩大中国科技工作者的国际影响力,促进原创成果涌现;第三,是缩短科技成果发布周期,有助于推动科技成果快速流转、有效转化;第四,打造多维科技论文集成创作平台,突破传统科技论文发表周期长、表达方式单一等诸多限制,实现作者、读者、编审人员的跨时空沟通和零距离管理;第五,与传统学术期刊建立全面合作,有助于出版社自身业务的扩展和深化,打造全新数字出版以及按需出版新业态;第六,在全面、权威学术大数据基础上,建立科学学术评价指标体系,为学术界提供最有价值的分析服务,社会效益显著。本项目平台既是论文数字出版与科研成果共享平台,也是数字出版业务平台。既能为作者、期刊和其他出版商、普通商业公司提供数字化出版发行服务;又能在平台上销售按需印刷的图书或电子书,实现网络出版和网络营销一体化,为平台拥有者带来直接的经济利益。平台的大部分系统功能深入使用时,要求用户必须成为注册用户,才能使用;但是,不可避免地会存在大量未注册用户浏览和阅读平台文章。对于注册用户,由于填写了必要的信息,针对其特点的推荐比较容易实现;但是大量未注册用户,必须先通过其平台浏览行为,挖掘分析其特点,得出用户画像后,才能实施个性化推荐,从而实现平台更多的经济效益。本专利技术提出了一种适应于新学术平台的匿名用户行为挖掘与个性化推荐方法,实现平台各类用户画像,帮助各类用户从平台获得各自的最大收益。
技术实现思路
本专利技术的目的在于提供一种能够全面刻画平台用户画像,实现精准学术推荐、帮助各类用户从平台获得最大收益的适应于新学术平台的匿名用户行为挖掘与个性化推荐方法。本专利技术方法包括两个部分:(一)适应于新学术平台的匿名用户行为挖掘,以便全面刻画平台用户画像,便于后续为其推荐有用平台资源;(二)基于项集相似性计算的协同过滤个性化推荐,实现精准学术推荐,帮助各类用户从平台获得最大收益。具体步骤为:为实现上述目的,本专利技术采用以下技术方案:(一)适应于新学术平台的匿名用户行为挖掘,包括以下步骤:步骤1、获取匿名用户在新学术平台的浏览行为数据:新学术平台自主开发有程序ce.js文件,使得平台具备获取访客行为数据的能力,用户访问新学术平台时,ce.js文件将抓取访客行为信息,访客的运行环境信息等,通过Ajax发送给平台的ce.php处理,ce.php将ce.js发过来的信息处理之后,分配保存到数据库相应的数据表中,便于下一步分析预处理。步骤2、用户行为数据预处理:获取的用户行为数据经分别处理后存储到相关的下述3个表中:log_visit,log_action,log_link_visit_action。ce.js可以记录用户、页面浏览、数据转化信息,部分跟踪数据来源于浏览器端Javascript直接获取,如屏幕分辨率、操作系统,有些数据来源于服务器PHP解析,如IP地址、useragent。每个独立访客都在cookie中分配一个独立的id。每一次访问都会在log_visit表中创建一行数据。步骤3抽取用户行为数据特征:会话是一个用户在一个特定的时间间隔内的路径,路径是用户按时间顺序访问的URL序列,相同的URL可以在一条路径中多次出现;会话的特征分为时间和空间两方面,时间特征包括每页的浏览时间,一段有向路径的浏览时间等;空间特征包括页面的浏览顺序,链接的点击等。如果一个访客两次访问相隔时间超过30分钟,这个访客会在log_visit表中插入两条会话数据。每浏览一个页面,log_visit表都会被更新,因为它要储存这个访客的页面访问量、最后页面访问时间等信息。从前述三个预处理获得的表中抽取出与用户行为特征密切相关的特征,便于下一步计算。本专利技术主要抽取两个最基本的特征:(1)点击(Hits):截取不同跨度子路径在会话中出现的次数;(2)访问时间(Viewtimes):截取会话中不同跨度子路径的访问时间。步骤4、特征聚类计算:N-hop表示路径跨度为N;表示两个会话P、Q在跨度为u的子路径集u-level上的相似性;对于任意u-hop的子路径(u=0,1,...,N),用特征值矩阵HHits和HVT描述其特征,矩阵集由不同跨度子路径的特征矩阵组成。设会话中包含有L个不同的页面,分别是p1到pL,则在u-level的特征值矩阵分别为:每个项是跨度为u的有向子路径。即相应路径的浏览时间;则:会话P、Q之间的相似性计算就分解为不同跨度的子路径之间的相似性的计算,将其展开为向量,转化为通过计算向量之间的欧几里得距离比较其相似性,距离越小,则越相似,如下:根据数据子集相似性,采用挖掘算法对会话数据集合分类。所述挖掘算法【1】为:输入:一组会话S;输出:一组聚集C={C1,C2,…},Ci∈S;具体过程为:(1)C初值为空;(2)对S中每个会话s;寻找聚集c,使s和c的质心距离d(s,c)(相似性)最短,记为dmin;如果dmin小于距离阈值Distance,则将s加入c;否则,将{s}加入C。距离阈值Distance通常根据一段时间内的数据分析结果进行选取。通过用户会话的聚集,可以刻画出用户的行为特征,便于下一步根据其特征为其推荐用户最感兴趣的学术资源(如专著、论文、专家等)。(二)基于项集相似性计算的协同过滤个性化推荐,具体步骤如下:步骤1、数据准备与表达:将输入数据表述为一个m×n的用户-项评估矩阵R,m是用户数,n是项数,rij是第i个用户对第j项的评估数值,评估值与项的内容有关,对于本专利技术针对的新学术平台,项是平台大数据中的图书、论文、专家学者等内容,评估值用数值如1~5等表示感兴趣的级别。步骤2、计算推荐数据集:采用推荐算法【2】计算推荐数据集;所述推荐算法,具体流程为:输入:用户U、与之对应的已选项集Iu、推荐用户-项评估矩阵R;对于匿名用户,Iu可以为前述算法获得的一组聚集C;输出:与Iu最相似的top-N推荐集。具体过程本文档来自技高网
...

【技术保护点】
1.一种适应于新学术平台的匿名用户行为挖掘与资源推荐方法,其特征在于,包括两个主步骤:(一)适应于新学术平台的匿名用户行为挖掘,以便全面刻画平台用户画像,便于后续为其推荐有用平台资源;(二)基于项集相似性计算的协同过滤个性化推荐,实现精准学术推荐,帮助各类用户从平台获得最大收益;具体步骤为:/n(一)适应于新学术平台的匿名用户行为挖掘,具体步骤为:/n步骤1、获取匿名用户在新学术平台的浏览行为数据:/n新学术平台具有程序ce.js文件,使得平台具备获取访客行为数据的能力,用户访问新学术平台时,ce.js文件将抓取访客行为信息、访客的运行环境信息等,通过Ajax发送给平台的ce.php处理,ce.php将ce.js发过来的信息处理之后,分配保存到数据库相应的数据表中,便于下一步分析预处理;/n步骤2、用户行为数据预处理:/n获取的用户行为数据经分别处理后存储到相关的下述3个表中:log_visit,log_action,log_link_visit_action;ce.js记录用户、页面浏览、数据转化信息,部分跟踪数据包括屏幕分辨率、操作系统,来源于浏览器端Javascript直接获取;有些数据包括IP地址、user agent,来源于服务器PHP解析;每个独立访客都在cookie中分配一个独立的id;每一次访问都在log_visit表中创建一行数据;/n步骤3抽取用户行为数据特征:/n会话是一个用户在一个特定的时间间隔内的路径,路径是用户按时间顺序访问的URL序列,相同的URL可以在一条路径中多次出现;会话的特征分为时间和空间两个方面,时间特征包括每页的浏览时间、一段有向路径的浏览时间;空间特征包括页面的浏览顺序、链接的点击;如果一个访客两次访问相隔时间超过30分钟,这个访客在log_visit表中插入两条会话数据;每浏览一个页面、log_visit表都被更新,因为它要储存这个访客的页面访问量、最后页面访问时间等信息;从步骤2中所述三个预处理获得的表中抽取出与用户行为特征密切相关的特征,便于下一步计算;/n抽取的特征主要为两个:(1)点击:截取不同跨度子路径在会话中出现的次数;(2)访问时间:截取会话中不同跨度子路径的访问时间;/n步骤4、特征聚类计算:/n设N-hop表示路径跨度为N;...

【技术特征摘要】
1.一种适应于新学术平台的匿名用户行为挖掘与资源推荐方法,其特征在于,包括两个主步骤:(一)适应于新学术平台的匿名用户行为挖掘,以便全面刻画平台用户画像,便于后续为其推荐有用平台资源;(二)基于项集相似性计算的协同过滤个性化推荐,实现精准学术推荐,帮助各类用户从平台获得最大收益;具体步骤为:
(一)适应于新学术平台的匿名用户行为挖掘,具体步骤为:
步骤1、获取匿名用户在新学术平台的浏览行为数据:
新学术平台具有程序ce.js文件,使得平台具备获取访客行为数据的能力,用户访问新学术平台时,ce.js文件将抓取访客行为信息、访客的运行环境信息等,通过Ajax发送给平台的ce.php处理,ce.php将ce.js发过来的信息处理之后,分配保存到数据库相应的数据表中,便于下一步分析预处理;
步骤2、用户行为数据预处理:
获取的用户行为数据经分别处理后存储到相关的下述3个表中:log_visit,log_action,log_link_visit_action;ce.js记录用户、页面浏览、数据转化信息,部分跟踪数据包括屏幕分辨率、操作系统,来源于浏览器端Javascript直接获取;有些数据包括IP地址、useragent,来源于服务器PHP解析;每个独立访客都在cookie中分配一个独立的id;每一次访问都在log_visit表中创建一行数据;
步骤3抽取用户行为数据特征:
会话是一个用户在一个特定的时间间隔内的路径,路径是用户按时间顺序访问的URL序列,相同的URL可以在一条路径中多次出现;会话的特征分为时间和空间两个方面,时间特征包括每页的浏览时间、一段有向路径的浏览时间;空间特征包括页面的浏览顺序、链接的点击;如果一个访客两次访问相隔时间超过30分钟,这个访客在log_visit表中插入两条会话数据;每浏览一个页面、log_visit表都被更新,因为它要储存这个访客的页面访问量、最后页面访问时间等信息;从步骤2中所述三个预处理获得的表中抽取出与用户行为特征密切相关的特征,便于下一步计算;
抽取的特征主要为两个:(1)点击:截取不同跨度子路径在会话中出现的次数;(2)访问时间:截取会话中不同跨度子路径的访问时间;
步骤4、特征聚类计算:
设N-hop表示路径跨度为N;表示两个会话P、Q在跨度为u的子路径集u-level上的相似性;对于任意u-hop的子路径(u=0,1,...,N),用特征值矩阵HHits和HVT描述其特征,矩阵集由不同跨度子路径的特征矩阵组成;设会话中包含有L个不同的页面,分别是p1到pL,则在u-level的特征值矩阵分别为:












<...

【专利技术属性】
技术研发人员:赵亮陶余会
申请(专利权)人:复旦大学出版社有限公司上海中和软件有限公司
类型:发明
国别省市:上海;31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1