用户标签的生成方法及设备技术

技术编号:33351353 阅读:34 留言:0更新日期:2022-05-08 09:57
本申请提供一种用户标签的生成方法及设备,应用于大数据技术领域。通过获取预设时段内热度值大于阈值的多个目标内容,从多个目标内容中确定已创建的用户标签,获取已创建的用户标签在多个目标内容的上下文信息,通过对已创建的用户标签在多个目标内容的上下文信息进行数据分析,可得到每个已创建的用户标签所对应的新用户标签。上述方案是基于已有用户标签从数据平台时下热点内容中挖掘新的用户标签,可学习到新的网络词,并将其转换为新用户标签,可提高用户标签挖掘的效率和质量。可提高用户标签挖掘的效率和质量。可提高用户标签挖掘的效率和质量。

【技术实现步骤摘要】
用户标签的生成方法及设备


[0001]本申请涉及大数据
,尤其涉及一种用户标签的生成方法及设备。

技术介绍

[0002]用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。用户标签是用户画像的核心要素,以数据共享平台为例,通过对某用户在数据共享平台内产生的如点赞、收藏等行为数据进行综合分析,可确定该用户具有差异性特征的用户标签。
[0003]目前,在大多数业务场景中,主要采用人工运营的方式进行用户标签的构建,该方式受到人工经验的局限,难以发现知识体系以外的标签内容,用户标签的扩展性较差。
[0004]随着大数据时代的来临,如何在海量数据中进行用户标签的挖掘,以提高用户标签挖掘的准确率,是各大数据平台亟待解决的一个问题。

技术实现思路

[0005]本申请实施例提供一种用户标签的生成方法及设备,提高用户标签挖掘的效率和质量。
[0006]本申请实施例的第一方面提供一种用户标签的生成方法,包括:
[0007]获取预设时段内热度值大于阈值的多个目标内容;
...

【技术保护点】

【技术特征摘要】
1.一种用户标签的生成方法,其特征在于,包括:获取预设时段内热度值大于阈值的多个目标内容;从所述多个目标内容中确定已创建的用户标签,获取所述已创建的用户标签在所述多个目标内容中的上下文信息;通过对所述已创建的用户标签在所述多个目标内容的上下文信息进行数据分析,生成新用户标签。2.根据权利要求1所述的方法,其特征在于,所述获取预设时段内热度值大于阈值的多个目标内容,包括:获取第一内容在所述预设时段内的交互统计数据,所述第一内容为用户发布的任一内容;根据所述第一内容的交互统计数据确定所述第一内容在所述预设时段内的热度值,若所述第一内容的热度值大于所述阈值,确定所述第一内容为所述目标内容。3.根据权利要求2所述的方法,其特征在于,所述第一内容的交互统计数据包括浏览数量、点赞数量、收藏数量、转发数量、留言数量的至少一项;所述根据所述第一内容的交互统计数据确定所述第一内容在所述预设时段内的热度值,包括:根据所述第一内容的各类交互统计数据以及预设的各类交互统计数据的权重值,确定所述第一内容在所述预设时段内的热度值。4.根据权利要求1

3任一项所述的方法,其特征在于,所述多个目标内容包括文本内容;所述从所述多个目标内容中确定已创建的用户标签,获取所述已创建的用户标签在所述多个目标内容中的上下文信息,包括:基于文本关键词检测算法从所述文本内容中提取多个关键词;若所述多个关键词中包含与所述已创建的用户标签相匹配的目标关键词,获取所述目标关键词在所述文本内容的上下文信息。5.根据权利要求1

3任一项所述的方法,其特征在于,所述多个目标内容包括视频内容;所述从所述多个目标内容中确定已创建的用户标签,获取所述已创建的用户标签在所述多个目标内容中的上下文信息,包括:提取所述视频内容中的音频数据,基于语音识别算法将所述音频数据转化为第一文本数据,从所述第一文本数据中提取多个关键词;若所述多个关键词中包含与所述已创建的用户标签相匹配的目标关键词,获取所述目标关键词在所述第一文本数据的上下文信息。6.根据权利要求1

3任一项所述的方法,其特征在于,所述多个目标内容包括图片内容;所述从所述多个目标内容中确定已创建的用户标签,获取所述已创建的用户标签在所述多个目标内容中的上下文信息,包括:基于文字识别算法提取所述图片内容的第二文本数据,所述第二文本数据用于指示图片中的文字;若所述第二文本数据中包含与所述已创建的用户标签相匹配的目标关键词,获...

【专利技术属性】
技术研发人员:吴嘉伟
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1