用户行为记录的生成方法及装置制造方法及图纸

技术编号:9794623 阅读:100 留言:0更新日期:2014-03-21 19:31
本发明专利技术涉及互联网技术领域,具体而言,涉及用户行为记录的生成方法及装置。该方法,包括:接收用户的网络访问数据;根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别;从所述用户的网络访问数据中提取用户访问的关键词;将所述用户访问的关键词分解为至少一个分解词;将所有所述分解词与预先建立的关键字库中的参考关键词进行匹配;根据匹配成功的分解词及所述网址类别,生成用户行为记录。本发明专利技术提供的用户行为记录的生成方法及装置,实现了根据生成的用户行为记录准确分析出用户的偏好。

【技术实现步骤摘要】
用户行为记录的生成方法及装置
本专利技术涉及互联网
,具体而言,涉及用户行为记录的生成方法及装置。
技术介绍
在互联网中,很多的应用都需要根据用户的偏好进行,例如根据用户的偏好推送个性化的广告、优惠卷、资讯等。为获取用户的偏好,首先需要生成用户行为记录,再根据用户行为记录就可以分析出用户的偏好。目前的用户行为记录生成方法大多是先使用深度包解析(DPI)技术采集用户的网络访问数据,然后使用ETUExtraction-Transformation-Loading,数据提取、转换和加载)技术从采集到的用户的网络访问数据中提取出相关的用户行为数据,并对用户访问的URL、HTTP标题、HTTP关键字等,和预先建立的配置库做实时的数据关联和匹配,形成结构化的用户行为记录。根据用户行为记录,可以知道用户在什么时间,什么地点,什么终端,访问了什么类型的网站。现有的用户行为记录生成方法会对用户搜索的关键字进行解析和匹配,如果配置库内,没有能与用户搜索的关键字相匹配的参考关键字,则无法生成相应的用户行为记录项目,匹配成功率低,造成后续无法根据生成的用户行为记录准确分析出用户的偏好。
技术实现思路
本专利技术的目的在于提供一种用户行为记录的生成方法及装置,以解决上述的问题。在本专利技术的实施例中提供了一种用户行为记录的生成方法,该方法包括:接收用户的网络访问数据;根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别;从用户的网络访问数据中提取用户访问的关键词;将用户访问的关键词分解为至少一个分解词;将所有分解词与预先建立的关键字库中的参考关键词进行匹配;根据匹配成功的分解词及网址类别,生成用户行为记录。优选地,从用户的网络访问数据中提取URLJf URL与预先建立的网址库中保存的网址进行模糊匹配,根据模糊匹配的结果确定用户访问的网址类别。优选地,从用户的网络访问数据中提取用户访问的关键词,包括:预先建立关键字特征标识库;关键字特征标识库中包含参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则;若用户的网络访问数据中包含与参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;将待转换的字符串还原为关键词。优选地,将用户访问的关键词分解为至少一个分解词包括:预先建立分解词表,分解词表中包含预设的分解参考词,以分解参考词为最小划分单位,将关键词划分为至少一个分解参考词。优选地,接收用户的网络访问数据之前,还包括:从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据;接收用户的网络访问数据,包括:接收待处理的用户的网络访问数据;接收用户的网络访问数据之后,确定用户访问的网址类别之前还包括:根据网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个确定用户访问的网址类别的执行任务。优选地,接收用户的网络访问数据之后,确定用户访问的网址类别之前,还包括:丢弃用户的网络访问数据中的非法字符串;非法字符创是预先设定的。在本专利技术的另一实施例中提供了一种用户行为记录的生成装置,该装置包括:接收模块、确定模块、提取模块、分解模块、匹配模块和生成模块,其中,接收模块,用于接收用户的网络访问数据;确定模块,用于根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别;提取模块,用于从用户的网络访问数据中提取用户访问的关键词;分解模块,将用户访问的关键词分解为至少一个分解词;匹配模块,用于将所有分解词与预先建立的关键字库中的参考关键词进行匹配;生成模块,用于根据匹配成功的分解词及网址类别,生成用户行为记录。优选地,确定模块具体用于从用户的网络访问数据中提取URLJf URL与预先建立的网址库中保存的网址进行模糊匹配,根据模糊匹配的结果确定用户访问的网址类别。优选地,提取模块具体包括:建立单元,用于预先建立关键字特征标识库;关键字特征标识库中包含参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则;提取单元,用于若用户的网络访问数据中包含与参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;还原单元,用于将待转换的字符串还原为关键词;分解模块具体用于预先建立分解词表,分解词表中包含预设的分解参考词,以分解参考词为最小划分单位,将关键词划分为至少一个分解参考词。优选地,还包括抽取模块、创建模块和丢弃模块,抽取模块用于从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据;接收模块具体用于接收待处理的用户的网络访问数据;创建模块用于根据网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个确定用户访问的网址类别的执行任务;丢弃模块,用于丢弃用户的网络访问数据中的非法字符串;非法字符串是预先设定的。本专利技术上述实施例的用户行为记录的生成方法及装置,通过将用户访问的关键词分解成至少一个分解词,将分解词与预先建立的关键字库中的参考关键词进行匹配,解决了现有技术中配置库内,没有能与用户搜索的关键字相匹配的参考关键字的问题,另外根据预先建立的网址库从用户的网络访问数据中确定用户访问的网址类别,从而根据匹配成功的分解词及网址类别,生成用户行为记录,实现了根据生成的用户行为记录准确分析出用户的偏好。【附图说明】图1示出了本专利技术实施例提供的一种用户行为记录的生成方法的流程图;图2示出了本专利技术另一实施例提供的用户行为记录的生成方法中提取用户访问的关键词的流程图;图3示出了本专利技术又一实施例提供的用户行为记录的生成方法的流程图;图4示出了本专利技术实施例提供的用户行为记录的生成装置的结构示意图;图5示出了本专利技术另一实施例提供的用户行为记录的生成装置的结构示意图;图6示出了本专利技术又一实施例提供的用户行为记录的生成装置的结构示意图。【具体实施方式】下面通过具体的实施例并结合附图对本专利技术做进一步的详细描述。如图1所示,本专利技术实施例提供了一种用户行为记录的生成方法,本实施例的执行主体为一个ETL服务器,该方法包括:步骤S110:接收用户的网络访问数据。可选地,在步骤SllO之前,还包括:从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据。具体地,对于全部网络访问数据包可以由多个ETL服务器来执行,因此对于一个ETL服务器来说,需要从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据。使用多个ETL服务器处理用户的网络访问数据可以加快网络访问数据的处理速度。且可以随时增加ETL服务器,增强计算能力。接收用户的网络访问数据,包括:接收待处理的用户的网络访问数据;可选地,在步骤SllO之后,步骤S120之前,还包括:丢弃用户的网络访问数据中的非法字符串;非法字符串是预先设定的。在具体实现过程中,非法字符串为不满足预先建立的模型条件的字符串,预先建立的模型条件一般是针对数据的一致性建立的,将不满足模型条件的网络访问数据丢弃。在用户的网络访问数据中,包括多个字符串,例如用户行为记录对应的是对某汽车网站的访问情况,那么非法字符串则为哪些不是对该汽车网站的访问字符串,则将这些不是对该汽车网站的访问字符串本文档来自技高网...

【技术保护点】
一种用户行为记录的生成方法,其特征在于,包括:接收用户的网络访问数据;根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别;从所述用户的网络访问数据中提取用户访问的关键词;将所述用户访问的关键词分解为至少一个分解词;将所有所述分解词与预先建立的关键字库中的参考关键词进行匹配;根据匹配成功的分解词及所述网址类别,生成用户行为记录。

【技术特征摘要】
1.一种用户行为记录的生成方法,其特征在于,包括: 接收用户的网络访问数据; 根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别; 从所述用户的网络访问数据中提取用户访问的关键词; 将所述用户访问的关键词分解为至少一个分解词; 将所有所述分解词与预先建立的关键字库中的参考关键词进行匹配; 根据匹配成功的分解词及所述网址类别,生成用户行为记录。2.根据权利要求1所述的方法,其特征在于,根据预先建立的网址库从所述用户的网络访问数据中确定用户访问的网址类别,包括: 从用户的网络访问数据中提取URL,将所述URL与所述预先建立的网址库中保存的网址进行模糊匹配,根据所述模糊匹配的结果确定用户访问的网址类别。3.根据权利要求1所述的方法,其特征在于,从所述用户的网络访问数据中提取用户访问的关键词,包括: 预先建立关键字特征标识库; 所述关键字特征标识库中包含参考关键字特征标识,以及与所述参考关键字特征标识 对应的字段提取规则; 若用户的网络访问数据中包含与所述参考关键字特征标识相同的标识字符串,则按照与所述标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串; 将所述待转换的字符串还原为关键词。4.根据权利要求1所述的方法,其特征在于,将所述用户访问的关键词分解为至少一个分解词包括:预先建立分解词表,所述分解词表中包含预设的分解参考词,以所述分解参考词为最小划分单位,将所述关键词划分为至少一个分解参考词。5.根据权利要求2所述的方法,其特征在于,所述接收用户的网络访问数据之前,还包括: 从全部网络访问数据中抽取一部分作为待处理的用户的网络访问数据; 所述接收用户的网络访问数据,包括:接收所述待处理的用户的网络访问数据; 接收用户的网络访问数据之后,确定用户访问的网址类别之前还包括:根据所述网络访问数据中提取的URL数量创建多个对应的,确定用户访问的网址类别的执行任务,同时执行多个所述确定用户访问的网址类别的执行任务。6.根据权利要求1所述的方法,其特征在于,所述接收用户的网络访问数据之后,确定用户访问的网址类别...

【专利技术属性】
技术研发人员:祝守宇赵林黄长波
申请(专利权)人:北京西塔网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1