用户兴趣识别的方法和系统技术方案

技术编号:30282754 阅读:16 留言:0更新日期:2021-10-09 21:52
本申请涉及一种用户兴趣识别的方法和系统,该用户兴趣识别的方法包括:获取各渠道上的用户行为日志,得到用户行为数据,汇总同一用户的行为数据,并按照时序进行排列,得到用户时序行为数据集合;根据用户时序行为数据集合,抽取时序环境特征,并根据用户时序行为数据集合,匹配标签特征;输入时序环境特征和标签特征至兴趣识别模型中,输出用户对产品的兴趣强度,其中,在兴趣识别模型中,采用长短时记忆网络表征时序行为特征,采用卷积神经网络表征标签特征,并将标签特征和时序行为特征进行全连接,以确定用户对产品的兴趣强度,通过本申请,解决了相关技术中识别出的用户兴趣并不精确的问题,达到了提高用户兴趣识别的精确度的效果。的效果。的效果。

【技术实现步骤摘要】
用户兴趣识别的方法和系统


[0001]本申请涉及计算机
,特别是涉及一种用户兴趣识别的方法和系统。

技术介绍

[0002]随着技术手段的发展,在同一个场景中,用户往往会在多个媒介上留下用户数据,这些不同来源的数据从各维度上刻画了用户对产品的兴趣偏好,例如,在产品的营销场景中,用户往往会在电话、短信、网页页面等多种媒介上留下用户数据,这些来自各个媒介的数据涵盖了纯文本、图像、视频或语音等多种数据类型;在相关技术中,用户兴趣识别是基于用户在单一媒介上操作产生的单一格式的数据进行用户兴趣识别,由于数据源单一,缺乏全面性,从而识别出来的用户兴趣往往不够精确。
[0003]针对相关技术中识别出的用户兴趣并不精确的问题,尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种用户兴趣识别的方法和系统,有利于提高识别出的用户兴趣的精确度。
[0005]第一方面,本申请实施例提供了一种用户兴趣识别的方法,所述方法包括:
[0006]获取各渠道上的用户行为日志,得到用户行为数据,汇总同一用户的行为数据,并按照时序进行排列,得到用户时序行为数据集合;
[0007]根据所述用户时序行为数据集合,抽取时序环境特征,并根据所述用户时序行为数据集合,匹配标签特征,其中,所述时序环境特征包括文本特征、通信特征和网页特征,所述标签特征包括用户标签特征和产品标签特征;
[0008]输入所述时序环境特征和所述标签特征至兴趣识别模型中,输出所述用户对产品的兴趣强度,其中,在所述兴趣识别模型中,采用长短时记忆网络表征所述时序行为特征,采用卷积神经网络表征所述标签特征,并将所述标签特征和所述时序行为特征进行全连接,以确定所述用户对产品的兴趣强度。
[0009]在其中一些实施例中,所述用户时序行为数据集合包括语音数据,所述抽取时序环境特征之前,所述方法包括:对所述用户时序行为数据集合进行预处理,其中,所述预处理的过程包括:对所述语音数据进行转化处理,得到文本数据。
[0010]在其中一些实施例中,所述用户时序行为数据集合包括产品标识,所述对所述语音数据进行转化处理之后,所述预处理的过程还包括:根据所述产品标识,补充产品属性至所述用户时序行为数据集合中,其中,所述产品标识包括产品编号或产品名称。
[0011]在其中一些实施例中,所述用户时序行为数据集合还包括短信数据,所述抽取文本特征的过程包括:
[0012]获取所述用户时序行为数据集合中的文本数据,其中,所述文本数据包括所述短信数据,以及所述语音数据转化处理后的文本数据;
[0013]对所述文本数据进行分词处理,得到分割后的词语;
[0014]给所述词语打上词性标签,得到所述文本特征;
[0015]用独热码表示所述文本特征。
[0016]在其中一些实施例中,所述用户时序行为数据集合还包括通信数据,所述抽取通信特征的过程包括:
[0017]获取所述用户时序行为数据集合中的所述通信数据,其中,所述通信数据包括振动铃时长、通话时长、接通后说话时长、平均每次对话吐字率或说话总长度;
[0018]对所述通信数据进行分段处理,得到所述通信特征;
[0019]用独热码表示所述通信特征。
[0020]在其中一些实施例中,所述用户时序行为数据集合还包括网页记录,所述抽取网页特征的过程包括:
[0021]获取所述用户时序行为数据集合中的所述网页记录,其中,所述网页记录包括页面停留时长或页面操作个数;
[0022]对所述网页记录进行分段处理,得到所述网页特征;
[0023]用独热码表示所述网页特征。
[0024]在其中一些实施例中,所述匹配产品标签特征的过程包括:
[0025]获取所述用户时序行为数据集合中的所述产品标识;
[0026]根据预定义的产品标识与产品标签特征的关联关系,匹配产品标签特征,其中,所述产品标签特征包括所述产品的名称、编号、活动时间或推广地域范围;
[0027]用独热码表示所述产品标签特征。
[0028]在其中一些实施例中,所述用户时序行为数据集合包括用户标识,所述匹配用户标签特征的过程包括:
[0029]获取所述用户时序行为数据集合中的所述用户标识;
[0030]根据预定义的用户标识与用户标签特征的关联关系,匹配用户标签特征,其中,所述用户标签特征包括所述用户的年龄、性别、地区或职业;
[0031]用独热码表示所述用户标签特征。
[0032]第二方面,本申请实施例提供了一种用户兴趣识别的系统,所述系统包括:
[0033]获取模块,用于获取各渠道上的用户行为日志,得到用户行为数据,汇总同一用户的行为数据,并按照时序进行排列,得到用户时序行为数据集合;
[0034]抽取模块,用于根据所述用户时序行为数据集合,抽取时序环境特征,并根据所述用户时序行为数据集合,匹配标签特征,其中,所述时序环境特征包括文本特征、通信特征和网页特征,所述标签特征包括用户标签特征和产品标签特征;
[0035]输出模块,用于输入所述时序环境特征和所述标签特征至兴趣识别模型中,输出所述用户对产品的兴趣强度,其中,在所述兴趣识别模型中,采用长短时记忆网络表征所述时序行为特征,采用卷积神经网络表征所述标签特征,并将所述标签特征和所述时序行为特征进行全连接,以确定所述用户对产品的兴趣强度。
[0036]在其中一些实施例中,所述用户时序行为数据集合包括语音数据,所述系统还包括:
[0037]预处理模块,用于对所述用户时序行为数据集合进行预处理,其中,所述预处理的过程包括:对所述语音数据进行转化处理,得到文本数据。
[0038]相比于相关技术,本申请实施例提供的用户兴趣识别的方法,通过获取各渠道上的用户行为日志,得到用户行为数据,汇总同一用户的行为数据,并按照时序进行排列,得到用户时序行为数据集合;根据用户时序行为数据集合,抽取时序环境特征,并根据用户时序行为数据集合,匹配标签特征,其中,时序环境特征包括文本特征、通信特征和网页特征,标签特征包括用户标签特征和产品标签特征;输入时序环境特征和标签特征至兴趣识别模型中,输出用户对产品的兴趣强度,其中,在兴趣识别模型中,采用长短时记忆网络表征时序行为特征,采用卷积神经网络表征标签特征,并将标签特征和时序行为特征进行全连接,以确定用户对产品的兴趣强度,解决了相关技术中识别出的用户兴趣并不精确的问题,达到了提高用户兴趣识别的精确度的效果。
附图说明
[0039]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0040]图1是根据本申请实施例的用户兴趣识别的方法的应用环境示意图;
[0041]图2是根据本申请第一实施例的用户兴趣识别的方法的流程图;
[0042]图3是根据本申请第二实施例的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户兴趣识别的方法,其特征在于,所述方法包括:获取各渠道上的用户行为日志,得到用户行为数据,汇总同一用户的行为数据,并按照时序进行排列,得到用户时序行为数据集合;根据所述用户时序行为数据集合,抽取时序环境特征,并根据所述用户时序行为数据集合,匹配标签特征,其中,所述时序环境特征包括文本特征、通信特征和网页特征,所述标签特征包括用户标签特征和产品标签特征;输入所述时序环境特征和所述标签特征至兴趣识别模型中,输出所述用户对产品的兴趣强度,其中,在所述兴趣识别模型中,采用长短时记忆网络表征所述时序行为特征,采用卷积神经网络表征所述标签特征,并将所述标签特征和所述时序行为特征进行全连接,以确定所述用户对产品的兴趣强度。2.根据权利要求1所述的方法,其特征在于,所述用户时序行为数据集合包括语音数据,所述抽取时序环境特征之前,所述方法包括:对所述用户时序行为数据集合进行预处理,其中,所述预处理的过程包括:对所述语音数据进行转化处理,得到文本数据。3.根据权利要求2所述的方法,其特征在于,所述用户时序行为数据集合包括产品标识,所述对所述语音数据进行转化处理之后,所述预处理的过程还包括:根据所述产品标识,补充产品属性至所述用户时序行为数据集合中,其中,所述产品标识包括产品编号或产品名称。4.根据权利要求2所述的方法,其特征在于,所述用户时序行为数据集合还包括短信数据,所述抽取文本特征的过程包括:获取所述用户时序行为数据集合中的文本数据,其中,所述文本数据包括所述短信数据,以及所述语音数据转化处理后的文本数据;对所述文本数据进行分词处理,得到分割后的词语;给所述词语打上词性标签,得到所述文本特征;用独热码表示所述文本特征。5.根据权利要求1所述的方法,其特征在于,所述用户时序行为数据集合还包括通信数据,所述抽取通信特征的过程包括:获取所述用户时序行为数据集合中的所述通信数据,其中,所述通信数据包括振动铃时长、通话时长、接通后说话时长、平均每次对话吐字率或说话总长度;对所述通信数据进行分段处理,得到所述通信特征;用独热码表示所述通信特征。6.根据权利要求1...

【专利技术属性】
技术研发人员:高鹏康维鹏袁兰吴飞周伟华高峰潘晶
申请(专利权)人:杭州摸象大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1