一种基于大数据的用户分类方法、系统和装置制造方法及图纸

技术编号:34514424 阅读:19 留言:0更新日期:2022-08-13 21:01
本发明专利技术公开了一种基于大数据的用户分类方法、系统及装置,属于大数据分类处理技术领域,包括获取视频数据,同时从视频数据中提取观众数据,根据视频数据对视频进行标识处理,根据处理结果获取视频标签,从观众数据中提取观众信息和观众评论,对观众评论进行分词处理,根据分词处理结果对评论添加对应的线索标签,将评论线索标签结合视频标签和观众信息对观众进行分类,根据分类结果生成观众用户画像,本发明专利技术能生成用户画像,根据构建的用户画像,对用户的需求进行针对性的广告推荐,具有结构简单、设计合理、易于制造的优点。易于制造的优点。易于制造的优点。

【技术实现步骤摘要】
一种基于大数据的用户分类方法、系统和装置


[0001]本专利技术属于大数据分类处理
,具体地说,涉及一种基于大数据的用户分类方法、系统及装置。

技术介绍

[0002]随着大数据时代的到来和用户在网上购物的流行,在大数据背景下,通过优秀的推荐算法对用户感兴趣的商品进行推荐,提高商品曝光率、增加用户购买量的行为已经成为了一个电子商务系统的基本功能之一,而对于用户购买行为的精准预测,构建精确的用户画像,反馈给市场、营销等人员,进行有针对性的商品销售,则是推荐算法的最终目标。
[0003]从海量的用户行为数据中快速地圈定符合业务要求的潜在客户已经成为数据价值挖掘的重要课题,对于精准营销、数据分析和用户推荐等领域而言,需要通过业务数据来预测需要的结果,如果商家可以掌握消费者的购买意愿,商家就可以合理地安排商品的库存。
[0004]目前,短视频和直播快速成为产品推广销售新渠道,越来越多的网络用户参与其中,然而,现有的电商推荐系统中,往往根据用户的购买行为基于协同过滤算法向用户推荐物品,但是用户在购买玩物品后,对于该物品的需求性会大大降低,导致对于固定产品去寻找潜在的客户缺少可行方案,现在商品推荐主要采用的是单一用户和单一商品直接进行匹配比对的方法,对于目前动辄上千万种类的商品和上千万用户来说,大幅提高了商品推荐的运行成本,同时不能准确的构建用户画像,导致商品广告推荐不能很好的推送给需要的用户。

技术实现思路

[0005]1、要解决的问题
[0006]针对现有商品推荐主要采用的是单一用户和单一商品直接进行匹配比对的方法,提高了商品推荐的运行成本,同时不能准确的构建用户画像,导致商品广告推荐不能很好的推送给需要的用户的问题,本专利技术提供一种基于大数据的用户分类方法、系统及装置。
[0007]2、技术方案
[0008]为解决上述问题,本专利技术采用如下的技术方案。
[0009]一种基于大数据的用户分类方法,采用以下步骤:
[0010]步骤1:获取视频数据,同时从视频数据中提取观众数据;
[0011]步骤2:根据步骤1获得的视频数据对视频进行标识处理,根据处理结果获取视频标签;
[0012]步骤3:从步骤1获得的观众数据中提取观众信息和观众评论;
[0013]步骤4:对步骤3获取的观众评论进行分词处理,根据分词处理结果对评论添加对应的线索标签;
[0014]步骤5:将步骤4获得的评论线索标签结合步骤2获得的视频标签和步骤3获得的观
众信息对观众进行分类;
[0015]步骤6:根据步骤5的分类结果生成观众用户画像。
[0016]优选地,所述步骤1中获取的视频是从第三方媒体渠道平台采集的视频素材和直播视频。
[0017]为了获取大量的视频素材,优选地,所述步骤1中视频数据包括视频标题,视频时长,主播信息,视频IP地址,视频内容。
[0018]为了获取准确的视频标签,优选地,所述步骤2中对视频进行标识处理是对视频进行特征提取,特征提取后计算特征权重,特征权重大于预设阈值的特征作为视频标签,视频标签分为地区标签和品牌标签。
[0019]为了让分类结果更加准确,优选地,所述步骤3中观众信息包括用户昵称,用户编码,用户IP地址,用户历史标签和用户视频观看记录。
[0020]为了使得主播和用户所在地判断更加准确,进一步的,所述视频IP地址和所述用户IP地址会得到视频主播所在城市和用户所在城市,对主播和用户所在城市的城市名称进行标准化处理,结合国家城市编码映射出对应的城市编码。
[0021]为了让评率标签更加符合评论内容,优选地,所述步骤4中线索标签是通过得到观众评论中的关键词,根据关键词对该评论打上对应类别的线索标签。
[0022]为了生成更准确的用户画像,优选地,所述步骤5对观众进行分类是根据评论线索标签、视频标签和观众信息得到观众在预设时间范围内访问同类视频标签的访问次数,当访问次数超过预设次数是,判断该观众为当前视频标签的高频访问潜在客户,当用户的评论线索标签与视频标签的内容相符时,判断该用户当前视频标签的评论意向潜在客户。
[0023]一种基于大数据的用户分类系统,包括:
[0024]视频采集模块,用于从第三方平台采集获取视频数据;
[0025]数据分类模块,用于对视频数据进行分类,获得视频信息和观众信息和观众评论;
[0026]分词模块;用于对观众评论进行分词处理;
[0027]标识标签模块,用户对视频信息进行标识处理,获取视频标签,对分词模块处理的词句添加对应的线索标签;
[0028]观众分类模块,用于根据标识标签模块得到的视频标签和线索标签对用户进行分类,根据分类结果,生成观众用户画像。
[0029]一种基于大数据的用户分类装置,所述装置包括服务处理器和分布存储器,所述服务处理器连接所述存储器,所述分布存储器中存储有服务自管理程序,配置用于存储机器可读指令,所述服务处理器执行所述服务自管理程序,指令在由所述处理器执行时,以实现如上所述的基于大数据的用户分类方法。
[0030]一种基于大数据的用户分类方法、系统及装置,通过采集获取观众数据和视频数据,从观众数据中分析出观众的观看频率,发布的评论和弹幕,观众自身的信息,对观众发送的评论和弹幕进行分词处理,从中提取关键词,根据关键词对用户添加线索标签,从视频数据中分析得到视频标签,结合视频标签、用户标签判断用户是否为评论意向潜在客户,通过用户访问频率,判断用户是否为高频访问潜在客户,利用多维度数据:视频信息、用户信息、评论内容、用户历史行为提高潜在客户的圈选准确率,最终生成用户画像,根据构建的用户画像,对用户的需求进行针对性的广告推荐。
[0031]3、有益效果
[0032]相比于现有技术,本专利技术的有益效果为:
[0033](1)本专利技术通过对视频进行标识处理,先对视频进行特征提取,在特征提取后计算特征权重,特征权重大于预设阈值的特征作为视频标签,得到视频的地区标签和品牌标签,通过特征得到视频标签,可以对该视频的观众进行更准确的分类;
[0034](2)本专利技术对观众发送的评论和弹幕内容进行逐条处理,然后进行多轮分词处理,从评论中提取出更符合业务需求的分词结果,根据分词结果可以得到用户的需求,推送更符合用户需求的视频;
[0035](3)本专利技术通过用户发送的评论数据判断该用户是否为当前视频标签的评论意向潜在客户,通过用户在预设时间范围内的访问次数判断该观众是否为当前视频标签的高频访问潜在客户,通过两种判断结果结合,可以生成更加准确的用户画像。
附图说明
[0036]为了更清楚地说明本申请实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的用户分类方法,其特征在于,采用以下步骤:步骤1:获取视频数据,同时从视频数据中提取观众数据;步骤2:根据步骤1获得的视频数据对视频进行标识处理,根据处理结果获取视频标签;步骤3:从步骤1获得的观众数据中提取观众信息和观众评论;步骤4:对步骤3获取的观众评论进行分词处理,根据分词处理结果对评论添加对应的线索标签;步骤5:将步骤4获得的评论线索标签结合步骤2获得的视频标签和步骤3获得的观众信息对观众进行分类;步骤6:根据步骤5的分类结果生成观众用户画像。2.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤1中获取的视频是从第三方媒体渠道平台采集的视频素材和直播视频。3.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤1中视频数据包括视频标题,视频时长,主播信息,视频IP地址,视频内容。4.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤2中对视频进行标识处理是对视频进行特征提取,特征提取后计算特征权重,特征权重大于预设阈值的特征作为视频标签,视频标签分为地区标签和品牌标签。5.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤3中观众信息包括用户昵称,用户编码,用户IP地址,用户历史标签和用户视频观看记录。6.根据权利要求3和权利要求5所述的一种基于大数据的用户分类方法,其特征在于:所述视频IP地址和所述用户IP地址会得到视频主播所在城市和用户所在城市,对主播和用户所在城市的城市名称进行...

【专利技术属性】
技术研发人员:张征
申请(专利权)人:广州阿凡提电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1