多核环境下基于海量日志的类似行为模式用户识别方法技术

技术编号:7043836 阅读:204 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种多核环境下基于海量日志的类似行为模式用户识别方法。现有的方法运算量巨大、I/O操作繁重。本发明专利技术方法首先在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集;其次读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;根据多核环境下设置的线程个数,均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;然后各线程分别搜索局部日志数据集,获取局部类似行为模式,并进行归约;最后并行归并各线程获得的局部类似行为模式集至全局类似行为模式集,获得具有类似行为模式的用户。本发明专利技术可使类似访问模式的识别过程具有较高的运行效率和加速比。

【技术实现步骤摘要】

本专利技术属于数据挖据
,具体涉及到一种。
技术介绍
因特网已经成为一个巨大的、分布广泛的和全球性的信息服务中心,正逐渐渗透到人们的日常工作、生活及其它领域。大量的用户通过访问电子商务网站进行信息查询和购买商品。通过分析Web服务器中的访问日志文件,从而发现用户访问站点的浏览规律,可以帮助人们理解不同用户的行为模式,最终为改进Web站点并获取更大的经济效益提供帮助。研究不同的用户的消费习惯,往往可以发现多个不同用户之间可能具有类似的行为模式。例如,他们可能都在每周四晚上浏览促销信息、每周五晚上网购日用品、每周日晚上确认到货和进行网上支付;或者可能都在每周五晚上进行网上阅读、每周六晚上更新博客、每周日晚上安排工作计划。这种行为模式的主要特征可以归纳为多个不同的用户在相近的时间点上从事类似的行为,或者说他们共享具有时间特征的类似行为模式。识别上述具有类似行为模式的用户群,可以为网站提供精准的个性化服务提供帮助,例如安排面向特定人群的团购活动,在合适的时间点推出广受欢迎的服务内容,等。然而,这种类似行为的访问模式识别一般涉及TB级的历史海量数据。虽然,计算机技术的飞速发展,特别是多核技术的引入可以使得传统计算机系统的计算能力得到一定程度的提高,但是,如果没有在应用级实施针对海量日志的分析过程的优化,巨大的运算量以及繁重的I/O操作可能依旧使得多核系统在功能和性能上都难以达到预期效果。
技术实现思路
本专利技术针对现有技术的不足,提供了一种。本专利技术方法的具体步骤是步骤(1)在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集,日志数据集中的每一条日志信息包括用户ID、访问时间、访问IP、请求页面、请求功能号;步骤O)以可用内存为限,读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;步骤(3)根据多核环境下设置的线程个数,采用水平等间距静态投影方法均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;步骤各线程分别搜索步骤C3)获得的局部日志数据集,获取局部类似行为模式, 并进行归约;步骤(5)重复步骤O)、(3)、0),至日志数据集中的所有日志信息都已处理完毕;步骤(6)并行归并各线程获得的局部类似行为模式集至全局类似行为模式集,获得具有类似行为模式的用户;本专利技术所提供的多核环境下基于海量日志的具有类似行为模式的用户识别方法由一组功能模块组成,它们包括日志集分批读取模块、日志集等分模块、局部类似模式集生成模块和局部类似模式集汇总模块。日志集分批读取模块以可用内存为限,分批读入日志数据集中的部分日志信息, 包括用户ID、访问时间、访问IP、请求页面、请求功能号。日志集等分模块根据多核环境下设置的线程个数,采用水平等间距静态投影方法均分日志集分批读取模块读取的日志数据集,得到多个局部日志数据集。局部类似模式集生成模块采用多线程并行的方式,将各线程待处理的局部日志数据集分别按日志的访问时间排序,获取局部类似行为模式和支持度,构建各个局部类似模式集。如局部类似行为模式集容量超过预定义的最大内存上限值,则以文件形式换出至硬盘。局部类似模式集汇总模块采用多线程并行的方式,累加各局部类似模式集的类似行为模式的支持度,格式化输出具有高支持度的具有类似行为模式的用户信息。本方明提出的方法采用数据并行和任务并行相结合的策略,在各线程生成局部类似行为模式后,再与其他线程协同,以最终获得所有的全局类似行为模式。该方法通过并行局部归约技术消除了局部类似行为模式的重复生成与计算,并可结合静态与动态任务分配机制解决处理器的负载不均衡问题。在分析海量访问日志过程中,与不经过多线程优化、直接采用多核处理器的传统方法相比,采用本方明所述方法可使类似访问模式的识别过程具有较高的运行效率和加速比。附图说明图1数据流图2模式存储数据结构图; 图3归约流程图。具体实施例方式本专利技术所提供的的具体实施方式主要分3步(如图1所示)(1)根据线程个数,用水平等间距静态投影方法均分全局日志数据集为各局部日志数据集,作为各线程的同等数据源;(2)将局部日志数据集按日志的访问时间排好序,并行搜索对同一个请求功能号的日志访问时间间隔小于预设时间窗口的 1个不同用户ID (其中,i > 2),将其作为局部类似行为模式并结合局部归约方法以文件形式保存;(3)结合动态任务分配机制方法并行归并局部类似行为模式,对比其支持度大小与预先设定的最小支持度阈值( _· //7),挖掘支持度大于阈值的目标类似行为模式。为叙述方便,定义相关符号如下Pi 第 i(i = lA...,ii)个线程。C,所有含对同一个请求功能号的日志访问时间间隔小于预设时间窗口的Jt个不同用户ID的局部类似行为模式集。Vl :所有含对同一个请求功能号的日志访问时间间隔小于预设时间窗口的A个不同用户ID,且ID值为j的局部类似行为模式集。Li :所有含i个不同用户ID的局部类似行为模式支持度大于的目标类似行为模式集,即A = 丨SUP(G) > Itiin. sup} 0Ds 分配到第i个线程的序列日志数据集。Cj 分配给巧的含左个不同用户ID的局部类似行为模式集,且I^1 = Ci。分配给巧的含^个不同用户ID,且ID值为j的局部类似行为模式集。Lsi 分配给巧的含j个不同用户ID的局部类似行为模式支持度大于的目标类似行为模式集,且4 = Σ二时I suP^') ^ min_ sup} = Li。( 1)静态等分全局日志数据集为了减少数据偏移的发生及实现多线程搜索局部类似行为模式,首先采用水平等间距静态投影数据分解模式均分全局日志数据集以实现各线程数据负载均衡。假设全局日志数据集中有p条记录,采用水平等间距静态投影分配方法将完整的日志数据集划分为η份(η=线程个数),使得各线程分配的局部日志数据集为疋(I^1 ^ =及)。其中第个线程对应的数据集^表示权利要求1.,其特征在于该方法的具体步骤是步骤(1).在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集,日志数据集中的每一条日志信息包括用户ID、访问时间、访问IP、请求页面和请求功能号;步骤O).以可用内存为限,读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;步骤(3).根据多核环境下设置的线程个数,采用水平等间距静态投影方法均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;设全局日志数据集中有R条记录,采用水平等间距静态投影分配方法将完整的日志数据集划分为η份,其中η=线程个数,使得各线程分配的局部日志数据集为步骤各线程分别搜索步骤C3)获得的局部日志数据集,获取局部类似行为模式, 并进行归约;各线程将需要处理的局部日志数据集按日志的访问时间从先到后排序;如k个不同用户ID对于同一个请求功能号的日志访问时间间隔小于预设的窗口时间、并尚未置入局部类似行为模式集,则将此k个用户ID作为一个项置入局部类似行为模式集,并记该项的支持度为1 ;如k个不同用户ID对于同一个请求功能号的日志访问时间间隔小于预设的窗口时间,同时对应的项已置入局部类似行为模式集,则把该项的支持度加1,其中k>=2在此过程中,若生成的局部类似行为模式集容量达到了预本文档来自技高网...

【技术保护点】
1.多核环境下基于海量日志的类似行为模式用户识别方法,其特征在于该方法的具体步骤是:步骤(1).在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集,日志数据集中的每一条日志信息包括用户ID、访问时间、访问IP、请求页面和请求功能号;步骤(2).以可用内存为限,读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;步骤(3).根据多核环境下设置的线程个数,采用水平等间距静态投影方法均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;设全局日志数据集中有R条记录,采用水平等间距静态投影分配方法将完整的日志数据集划分为n份,其中n=线程个数,使得各线程分配的局部日志数据集为                                               ,其中步骤(4).各线程分别搜索步骤(3)获得的局部日志数据集,获取局部类似行为模式,并进行归约;各线程将需要处理的局部日志数据集按日志的访问时间从先到后排序;如k个不同用户ID对于同一个请求功能号的日志访问时间间隔小于预设的窗口时间、并尚未置入局部类似行为模式集,则将此k个用户ID作为一个项置入局部类似行为模式集,并记该项的支持度为1;如k个不同用户ID对于同一个请求功能号的日志访问时间间隔小于预设的窗口时间,同时对应的项已置入局部类似行为模式集,则把该项的支持度加1,其中k)=2在此过程中,若生成的局部类似行为模式集容量达到了预先定义的最大内存上限值,则可先将该局部类似行为模式集以文件形式保存在硬盘中;步骤(5).重复步骤(2)、(3)、(4),至日志数据集中的所有日志信息都已处理完毕;步骤(6).并行归并各线程获得的局部类似行为模式集至全局类似行为模式集,获得具有类似行为模式的用户;选择空闲核,合并部分局部类似行为模式集至1个新的局部类似行为集,即把局部类似行为模式集中相同项的支持度进行累加,形成1个新的局部类似行为模式集;多核并行执行上述工作,直至最终获得1个全局类似行为模式集,如其中某个项的支持度超过阈值,则对应的k个用户即为共享类似行为模式的用户。...

【技术特征摘要】

【专利技术属性】
技术研发人员:俞东进李万清郑苏杭
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1