一种用户时序行为特征提取方法及装置制造方法及图纸

技术编号:23343601 阅读:31 留言:0更新日期:2020-02-15 03:57
本发明专利技术公开了一种用户时序行为特征提取方法及装置,其中方法包括:根据一定的时间段内的单个用户在各页面中的各行为数据以及各行为数据的时间戳,构建行为字典,行为字典包括:页面信息、与页面信息对应的行为数据以及与行为数据对应的行为用时;对多个用户的行为字典做时间归一化和时间离散化处理,利用处理后的行为字典构建行为语料库;基于行为语料库,利用TF‑IDF特征提取方法,生成用户时序行为特征向量。本发明专利技术将用户在不同页面的不同行为的耗时融入到行为字典中,使得不同用户的相同行为存在差异,更准确地进行特征提取。

A method and device for feature extraction of user's temporal behavior

【技术实现步骤摘要】
一种用户时序行为特征提取方法及装置
本专利技术涉及特征提取
,特别涉及一种用户时序行为特征提取方法及装置。
技术介绍
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此在移动应用中TF-IDF通常用来分析用户行为数据,基于TF-IDF方法提取用户行为特征向量,一般的用户行为特征向量的提取仅以行为数据为基础,很少参考操作行为的用时。一旦用户操作行为一直时很难将用户区分开来,而用户的操作用时往往能够传递很多信息,例如同样的操作行为,不同用户的操作用时的差异可能能够区分出用户是对页面的熟悉程度、是否是本人操作等信息。因此,现有技术中仅以用户行为数据作为特征提取基础的特征提取方法存在反应情况片面难以区分操作行为一致的用户的情况。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种用户时序行为特征提取方法。所述技术方案如下:<br>一方面,提供了本文档来自技高网...

【技术保护点】
1.一种用户时序行为特征提取方法,其特征在于,包括:/n根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;/n对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;/n基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量。/n

【技术特征摘要】
1.一种用户时序行为特征提取方法,其特征在于,包括:
根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;
对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;
基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量。


2.如权利要求1所述的一种用户时序行为特征提取方法,其特征在于,所述根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典的步骤包括:
根据所述页面信息区分页面,获取各页面中的各行为数据,形成基础行为字典;
在一定的时间段内从日志数据中获取与所述各页面中各行为数据对应的时间戳;
将所述时间戳对应地插入所述基础行为字典中的各行为数据中,按照时间顺序对所述行为数据排序,生成行为序列;
统计各页面的行为数据以及与所述行为数据对应的行为用时,构建出所述行为字典。


3.如权利要求2所述的一种用户时序行为特征提取方法,其特征在于,在所述生成行为序列后,所述构建行为字典的步骤还包括:
计算相邻所述行为数据的时间间隔;
判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据,删除所述无效行为数据。


4.如权利要求1所述的一种用户时序行为特征提取方法,其特征在于,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
将所述页面信息和所述行为数据以及所述行为用时,进行拼接生成字符串;
按照所述行为用时对所述字符串进行分桶,得到行为用时离散化的所述字符串。


5.如权利要求2所述的一种用户时序行为特征提取方法,其特征在于,在所述统计各页面的行为数据以及与所述行为数据对应的行为用时后,所述构建行为字典的步骤还包括:
按照流程步骤划分所述页面,统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。


6.如权利要求5所述的一种用户时序行为特征提取方法,其特征在于,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
将所述步骤和所...

【专利技术属性】
技术研发人员:李君浩胡宏辉
申请(专利权)人:上海上湖信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1