一种基于社交平台数据的潜在用户识别方法及装置制造方法及图纸

技术编号:28212964 阅读:35 留言:0更新日期:2021-04-24 14:52
本申请的一个实施例公开了一种基于社交平台数据的潜在用户识别方法及装置,该方法包括:S10、基于白名单词表和/或第一黑名单词表对从社交平台获取的数据进行预提取,得到无标签帖子集合T和无标签图像集合I;S20、利用训练好的N个图像分类模型对所述图像集合I进行图像分类,得到所述图像集合I对应的用户的第一分值,其中,N大于等于2;S30、基于异常用户数据检测得到所述帖子集合T对应的用户的第二分值;S40、基于第一分值与第二分值获得潜在用户分值。本申请提出了对社交数据进行预提取的方法获取潜在有用户,仅采集可能对品牌感兴趣的用户子集中的关键社交数据来识别用户兴趣,大规模减少了数据获取量和不必要的数据获取开销。销。销。

【技术实现步骤摘要】
一种基于社交平台数据的潜在用户识别方法及装置


[0001]本申请涉及数据挖掘领域。更具体地,涉及一种基于社交平台数据的潜在用户识别方法、装置、计算设备和存储介质。

技术介绍

[0002]社交平台数据中存在海量数据,从中挖掘出用户的潜在兴趣。现有的数据挖掘、图像识别及自然与处理技术可以较好的挖掘出用户的一些通用兴趣,如美食、美妆和音乐等。现有技术中可以使用神经网络对用户文本进行embedding并提取用户兴趣或利用用户的文本信息和用户互动关系挖掘用户兴趣或针对某一用户的历史微博图文,分别从文本和图像提取语义特征,并通过这些特征识别用户兴趣倾向等。
[0003]实际应用中存在垂直领域的用户精细化兴趣挖掘,以啤酒行业为例,企业中需要挖掘的不仅仅是喜欢喝酒的用户,更需要进行精准定位,如啤酒还是白酒、什么档次、甚至具体到细分品牌和口味,经过喜欢酒=&gt;喜欢啤酒=&gt;喜欢高端啤酒=&gt;喜欢某牌高端啤酒某种口味的过滤后,细分用户的占比将在总数据中极少,这就大大增加了用户挖掘的难度,主要表现在:<br/>[0004]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于社交平台数据的潜在用户识别方法,其特征在于,包括:S10、基于白名单词表和/或第一黑名单词表对从社交平台获取的数据进行预提取,得到无标签帖子集合T和无标签图像集合I;S20、利用训练好的N个图像分类模型对所述图像集合I进行图像分类,得到所述图像集合I对应的用户的第一分值,其中,N大于等于2;S30、基于异常用户数据检测得到所述帖子集合T对应的用户的第二分值;S40、基于第一分值与第二分值获得潜在用户分值。2.根据权利要求1所述的方法,其特征在于,还包括:对所述N个图像分类模型进行训练的步骤,其中,所述步骤包括:S200、获取已标注训练集D0:{I0,y0},其中,I0为已知图像集合,y0为与已知图像集合I0对应的标签,其中标签包括正样本标签和负样本标签;S202、利用所述已标注训练集D0对所述N个图像分类模型进行训练;S204、利用S202中训练的所述N个图像分类模型对未标注训练集D进行分类,得到分类结果;S206、将分类结果中属于正样本标签的训练样本组成新训练集D1:{I1,y1},重新训练所述N个图像分类模型,其中,I1为分类结果中为正样本标签的图像集合,y1为与与I1对应的标签;S208、重复步骤S204和S206,直至所述N个图像分类模型的训练精度达到第一阈值。3.根据权利要求2所述的方法,其特征在于,所述S204包括:利用S202中训练的所述N个图像分类模型对未标注训练集D进行分类,其中,所述未标注训练集D中的每个图片数据包括该图片的本身数据及该图片被P次区域分割后的P个子图片数据,对于每个图片,得到(P+1)
×
N个分类结果。4.根据权利要求1所述的方法,其特征在于,所述异常用户数据检测包括营销用户数据检测和非原创用户数据检测,所述第二分值包括营销用户分值和非原创用户分值。5.根据权利要求4所述的方法,其特征在于,所述营销用户数据检测包括:S300、创建用于识别营销用户的第二黑名单词表;S302、统计所述无标签帖子集合T中的每条帖子中出现所述第二黑名单词表的频率F1,若频率F1大于第二阈值,得到与所述帖子对应的所述营销用户分值。6.根据权利要求4所述的方法,其特征在于,所述非原创用户数据检测包括:S304、创建数据库,所述数据库存储有所述无标签帖子集合T中的...

【专利技术属性】
技术研发人员:韩天奇卢铮
申请(专利权)人:百威投资中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1