The invention relates to a news recommendation method, system and computer equipment based on user behavior data detection. The method comprises: transforming user News Click behavior data, generating user behavior data set that can be processed, filtering out non frequent behaviors in user behavior data set, obtaining relatively frequent item set by using frequent item set serial mining algorithm, and constructing user line The relative frequent item set tree is formed for the relative frequent item set in, the optimal frequent item set is found, the complete support degree of the optimal frequent item set in the user behavior is calculated, the association rules related to the user behavior frequent item set are generated according to the complete support degree, and the news is recommended to the user according to the association rules. The invention can fully consider the real production environment and efficiently handle the massive user behavior Data set belongs to the technical field of data analysis.
【技术实现步骤摘要】
基于用户行为检测的新闻推荐方法、系统及计算机设备
本专利技术涉及数据分析
,具体而言,涉及一种基于用户行为数据检测的新闻推荐方法、系统及计算机设备。
技术介绍
新闻推荐算法是目前新媒体研究中的一个热点,在互联网发展的初期,信息的热门推荐方法得到发展并在雅虎等网站被大量使用。目前所处的大数据时代,则是个性化算法推荐和信息流展现为主流。随着通信技术和移动物联网的发展,数据的规模变得越来越大。数据挖掘可以从大规模数据中提取重要的信息,其被广泛应用于各种领域,比如用户行为分析、空间预测和网络安全检测等。然而经典算法对海量数据需要大量的计算量,其已经不能有效地处理那些数据。关联规则挖掘是数据挖掘的一个分支,其主要是为了从数据中发现潜在的关系。一般的关联规则挖掘算法由两个主要步骤组成:1)从数据集中提取频繁项集;2)根据所提取的频繁项集生成关联规则。针对第一步,大部分研究者主要通过候选集剪枝或者加快检索速度(如位图排序)改进两种经典算法:Apriori和FP-Growth。但这些算法依然存在运行时间过长的问题以至于它们在海 ...
【技术保护点】
1.一种基于用户行为数据检测的新闻推荐方法,其特征在于,包括:/n步骤1,对用户新闻点击行为数据进行转换,生成可处理的用户新闻点击行为数据集;/n步骤2,过滤掉用户新闻点击行为数据集中的非频繁行为,使用频繁项集串行挖掘算法获取相对频繁项集,构建由用户新闻点击行为中的相对频繁项集形成的相对频繁项集树,找出最优频繁项集,计算用户新闻点击行为中最优频繁项集的完整支持度;/n步骤3,对最优频繁项集进行遍历,根据完整支持度,生成用户新闻点击行为频繁项集相关的关联规则;/n步骤4,根据关联规则向用户推荐与新闻点击历史行为具有强关联度的新闻。/n
【技术特征摘要】
1.一种基于用户行为数据检测的新闻推荐方法,其特征在于,包括:
步骤1,对用户新闻点击行为数据进行转换,生成可处理的用户新闻点击行为数据集;
步骤2,过滤掉用户新闻点击行为数据集中的非频繁行为,使用频繁项集串行挖掘算法获取相对频繁项集,构建由用户新闻点击行为中的相对频繁项集形成的相对频繁项集树,找出最优频繁项集,计算用户新闻点击行为中最优频繁项集的完整支持度;
步骤3,对最优频繁项集进行遍历,根据完整支持度,生成用户新闻点击行为频繁项集相关的关联规则;
步骤4,根据关联规则向用户推荐与新闻点击历史行为具有强关联度的新闻。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
对用户新闻点击行为数据进行转换,按照在数据集中出现的顺序,转换为从1开始到N的整型数据;将用户点击数据按照用户分组整合在一起形成行存储数据,每个用户代表数据集中的一行;对所有用户的新闻点击行为数据进行处理生成可处理的用户新闻点击行为数据集T;其中所述用户新闻点击行为数据为用户点击网页行为形成的点击流数据,N为用户点击数据中不同的点击数据的数量。
3.根据权利要求1所述的方法,其特征在于,步骤2包括:
步骤201,用MapReduce编程模型中的Map操作将用户新闻点击行为数据集转换为为由单个项和计数量1构成的键值对;用Reduce操作将各个键值对整合在一起,得到每一个行为的支持度;根据经验设置最小支持度阈值,找出行为数据中支持度小于最小支持度阈值的非频繁行为,将所述非频繁行为删除;
步骤202,根据经验设置分区数,将过滤后的用户新闻点击行为数据集分为相应分区数的子数据集;在每一个子数据集上面运行频繁项集串行挖掘算法,找出针对每个子数据集的相对频繁项集;将所有相对频繁项集聚集在一起,相同的相对频繁项集的支持度相加在一起,形成聚合后的估计支持度;
步骤203,从具有最大项集长度的相对频繁项集开始,由其组成树的最高层,然后根据项数往下搜索该层项集的项数只相差一个的子集,由这些子集组成下一层,直至遍历完所有相对频繁项集,构建出相对频繁项集树;基于相对频繁项集树,从相对频繁项集的最高层开始,比对项集与其子集之间的价值;若子集的价值大于该项集,则将子集视为最优频繁项集,继续搜索该子集的子集中是否有价值更高的子集,迭代向下搜索,直到找到最优频繁项集;
步骤204,在每个用户新闻点击行为数据上搜索最优频繁项集,由搜索到的最优频繁项集构成项集和计数量1的键值对,将所有键值对聚合在一起,计算得到最优频繁项集的完整支持度。
4.根据权利要求1所述的方法,其特征在于,步骤2中所述使用频繁项集串行挖掘算法获取相对频繁项集包括:
对于不同项数的频繁项集,设置运行分割值将频繁项集挖掘过程分割为两个挖掘过程;对于项数小于等于运行分割值的频繁项集,采用MapReduce编程模型操作来挖掘出相对频繁项集;对于项数小于等于运行分割值的频繁项集,采用Apriori关联分析算法并结合位图排序挖掘出相对频繁项集。
5.根据权利要求1所述的方法,其特征在于,步骤2中所述构建由用户新闻点击行为中的相对频繁项集形成的相对频繁项集树,找出最优频繁项集包括:
将相对频繁项集RFIs按照项集的长度划分为不同的层,项集的长度越长,层次越高;从最高层的最大频繁项集开始,对每一层进行扫描,找出上层的子集,以此构建相对频繁项集树RFIs-tree;从最大频繁项集开始,过滤掉冗余的频繁项集,扫描每一个上层频繁项集X来计算其价值RFIV(X)和它最近的子集X_sub的价值RFIVsub(X_sub);将价值RFIV(X)和RFIVsub(X_sub)中距离数字1的距离更远的频繁项集确定为当前的更优频繁项集;如果上层频繁项集X为更优频繁项集,则与项集X的其他子集进行比较,如果下层的子集X_sub为更优频繁项集,则子集X_sub与其子集进行比较,迭代向下搜索,直到找到最优频繁项集;
其中频繁项集X的RFIV(X)与不同的RFIVsub相关,RFIV(X)的计算公式为:
子集X_sub的价值RFIVsub(X_sub)的计算公式为:
S={x|x=RFIV(X_subn),n∈{1,...,len(X_sub)}},
其中,eSup()指的是某一项集的估计支持度,即已获得的不完整的支持度,其中diff(X,X_sub)表示X和X_sub之间的差集,len(X_sub)表示X_sub的长度,RFIV(X_subn)为X_sub相对...
【专利技术属性】
技术研发人员:代劲,郭亮,夏鲁宏,胡峰,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。