一种基于标签传播的数据扩展方法与设备技术

技术编号:26507046 阅读:37 留言:0更新日期:2020-11-27 15:35
本申请的目的是提供一种基于标签传播的数据扩展方案。该方案先获取第一数据集,所述第一数据集包括有标签的用户数据和无标签的用户数据,然后利用标签传播算法根据所述第一数据集生成第二数据集,所述第二数据集的所有用户数据都带有标签,再基于所述第二数据集训练得到Lookalike模型,利用所述Lookalike模型扩展找到目标用户。与现有技术相比,本申请通过图计算的方式有效地扩展种子用户数据,提升了Lookalike模型的拓展效果,从而能够更加精准地找到目标用户,提升了用户体验,节约了数据购买成本。

【技术实现步骤摘要】
一种基于标签传播的数据扩展方法与设备
本申请涉及信息
,尤其涉及一种基于标签传播的数据扩展技术。
技术介绍
近年来信息技术的进步促进了各行各业的发展,广告营销行业需要帮助品牌产品做运营推广,但是广告预算因为粗放式的投放往往打水漂。如果运用Lookalike方式进行用户拓展,则可以达到节约广告经费进行精准营销的目的。其中,用户拓展模型Lookalike需要种子用户也就是带有标签(label)的用户数据,因为拓展模型需要根据分析种子用户的数据特征,才可以在海量大数据中通过这些特征找到相似数据,从而实现人群扩展的目的。但是,现有技术方案中的Lookalike模型单纯依靠种子用户数据进行相似人群扩展。很多冷启动项目往往带有标签(label)的数据非常少,且label数据特别昂贵、很难获得,而有限的label数据会造成模型训练样本过少,模型无法提炼足够多的特征,这导致目前人群拓展Lookalike模型在新产品、新品牌、新项目中仅能发挥有限的作用。
技术实现思路
本申请的一个目的是提供一种基于标签传播的数据扩展方法与设备,本文档来自技高网...

【技术保护点】
1.一种基于标签传播的数据扩展方法,其中,所述方法包括:/n获取第一数据集,其中,所述第一数据集包括有标签的用户数据和无标签的用户数据;/n利用标签传播算法根据所述第一数据集生成第二数据集,其中,所述第二数据集的所有用户数据都带有标签;/n基于所述第二数据集训练得到Lookalike模型,利用所述Lookalike模型扩展找到目标用户。/n

【技术特征摘要】
1.一种基于标签传播的数据扩展方法,其中,所述方法包括:
获取第一数据集,其中,所述第一数据集包括有标签的用户数据和无标签的用户数据;
利用标签传播算法根据所述第一数据集生成第二数据集,其中,所述第二数据集的所有用户数据都带有标签;
基于所述第二数据集训练得到Lookalike模型,利用所述Lookalike模型扩展找到目标用户。


2.根据权利要求1所述的方法,其中,利用标签传播算法根据所述第一数据集生成第二数据集,包括:
利用标签传播算法,根据所述第一数据集内有标签的用户数据,确定所述第一数据集内无标签的用户数据对应的标签,生成所述第二数据集。


3.根据权利要求2所述的方法,其中,利用标签传播算法,根据所述第一数据集内有标签的用户数据,确定所述第一数据集内无标签的用户数据对应的标签,包括:
根据所述第一数据集内有标签的用户数据和无标签的用户数据,建立全连接图,其中,每一个有标签的用户数据或者无标签的用户数据作为所述全连接图中的一个节点;
让每一个带有标签的节点通过边传播到所有节点。


4.根据权利要求3所述的方法,其中,让每一个带有标签的节点通过边传播到所有节点,包括:
利用权重公式来设定两个节点之间边的权重,其中,权重大的边的节点更容易影响到相邻节点;
定义一个概率传播矩阵,其中,每个节点传播概率是把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;
重复利用所述概率传播矩阵执行传播节点标签直到收敛。


5.一种基于标签传播的数据扩展设备,其中,所述设备包括:
输入模块,用于获取第一数据集,其中,所述第一数据集包括有标签的用户数...

【专利技术属性】
技术研发人员:刘楠
申请(专利权)人:广州掌淘网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1