基于个人文本信息的人群聚类数据处理方法、装置及设备制造方法及图纸

技术编号:28035551 阅读:37 留言:0更新日期:2021-04-09 23:17
本申请属于数据处理领域,公开了一种基于个人文本信息的人群聚类数据处理方法、装置及设备,能够为用户的各项特征添加对应的标签值,并匹配对应的标签权重,并根据用户之间的相关性构建相关网络矩阵,将相关网络矩阵与其他的社团网络矩阵进行结合组成多种相似性网络矩阵,这样就可以根据多重相似性网络矩阵,查找对应活跃用户作为种子用户的相关用户,证明向这些用户进行产品推销成功率相对较高,另外还可以根据构建的多重相似性网络矩阵中呈现的各个用户之间的相关性,挖掘个体用户的隐藏特性、个体用户之间的相似性和社交属性,能方便的输出人群聚类或基于种子用户扩展进行精准营销。

【技术实现步骤摘要】
基于个人文本信息的人群聚类数据处理方法、装置及设备
本申请涉及数据处理领域,特别是涉及一种基于个人文本信息的人群聚类数据处理方法、装置及设备。
技术介绍
基于文本的人群聚类网络构建一般使用关键词匹配或者机器学习预测等单一方法,一个标签通常只由一种数据粒度或方法产生,没有考虑标签的时效性,传统方法通常依靠标签的是否来圈定,并未挖掘个体的隐藏特性,也不会考虑个体朋友、亲属之间的相似性。因此,目前的人群聚类网络的构建容易出现覆盖率不高或者准确率不高的情况。
技术实现思路
有鉴于此,本申请提供了一种基于个人文本信息的人群聚类数据处理方法、装置及设备。主要目的在于解决目前人群聚类网络的构建容易出现覆盖率不高或者准确率不高的技术问题。依据本申请的第一方面,提出了一种基于个人文本信息的人群聚类数据处理方法,步骤包括:为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本;为每个标签值匹配对应的标签权重;以所述用户作为行,所述标签权重作为列,构建标签矩阵集;根据所述本文档来自技高网...

【技术保护点】
1.一种基于个人文本信息的人群聚类数据处理方法,其特征在于,步骤包括:/n为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本;/n为每个标签值匹配对应的标签权重;/n以所述用户作为行,所述标签权重作为列,构建标签矩阵集;/n根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵;/n获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵;/n接收活跃用户的信息,根据所述活跃用户的信息在所述多重相似性网络矩阵中进行标记,将所述活跃用户作为种子用户,并计算所述多重...

【技术特征摘要】
1.一种基于个人文本信息的人群聚类数据处理方法,其特征在于,步骤包括:
为获取的至少一个用户的特征文本添加对应的标签值,其中,每个用户对应至少一个特征文本;
为每个标签值匹配对应的标签权重;
以所述用户作为行,所述标签权重作为列,构建标签矩阵集;
根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵;
获取至少一个社交网络矩阵,将所述相关网络矩阵与至少一个所述社交网络矩阵进行结合构建多重相似性网络矩阵;
接收活跃用户的信息,根据所述活跃用户的信息在所述多重相似性网络矩阵中进行标记,将所述活跃用户作为种子用户,并计算所述多重相似性网络矩阵中其他用户距离所述种子用户的路径距离;
将所述路径距离小于等于设定阈值的其他用户作为目标用户,并获取所述目标用户的个人文本信息进行展示。


2.根据权利要求1所述的方法,其特征在于,所述为获取的至少一个用户的特征文本添加对应的标签值,具体包括:
利用标签预测模型或标签添加规则向所述特征文本中添加相应的标签;
从多个维度为所述特征文本的标签确定对应的标签值,其中多个维度包括:频次维度、利用tf-idf算法对标签进行统计计算后得到的标签重要性维度、数据不同粒度或特定行为维度。


3.根据权利要求1所述的方法,其特征在于,所述为每个标签值匹配对应的标签权重,具体包括:
为每个所述标签值设置对应的基础权重值;
为每个所述标签值设定相应的时间衰减系数;
将所述基础权重值与所述时间衰减系数相乘后,再进行归一化处理得到对应的标签权重。


4.根据权利要求1所述的方法,其特征在于,在所述以所述用户作为行,所述标签权重作为列,构建标签矩阵集之后,具体包括:
接收带有用户标记的特征反馈文本,根据所述用户标记查找所述特征反馈文本对应的用户的特征文本;
比对所述特征反馈文本与所述特征文本是否相同,若不同,则根据所述特征反馈文本对应的标签值匹配对应的反馈标签权重,并利用所述反馈标签权重替代所述标签矩阵集中所述特征文本对应的标签权重,形成新的标签矩阵集,若相同,则不进行处理。


5.根据权利要求1所述的方法,其特征在于,根据所述标签矩阵集计算各个用户之间的相关系数,并根据相关系数确定用户之间的相关值,根据所述相关值构建相关网络矩阵,具体包括:
利用皮尔森算法根据所述标签矩阵集计算各个用户之间的相关系数;
当所述相关系数大于等于设定相关阈值时,确定所述相关系数对应的两个用户之间具有连边,所述相关系数对应的两个用户之间的相关值为1,当所述相关系数小于设定相关阈值时,所述相关系数对应的两个用户之间的相关值为0;
以各个用户作为相关网络矩阵的行和列,所述相关值作为相关网络矩阵的取值,构建相关网络矩阵。

【专利技术属性】
技术研发人员:邹丹
申请(专利权)人:大箴杭州科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1