一种标签预测方法、电子设备及存储介质技术

技术编号:35590839 阅读:12 留言:0更新日期:2022-11-16 15:08
本申请涉及智慧化技术领域,具体涉及一种标签预测方法、电子设备及存储介质。该方法包括:获取用户选择的样本数据检索词和特征关键词;基于所述样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据,并基于所述特征关键词从检索出的所述样本人群数据中提取出所述特征关键词对应类型的人群特征;基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,训练用户所需的标签预测模型,减少了开发人员的工作量;实现了无代码进行模型训练和预测;实现了标签预测模型的一站式生成,并提高了标签预测效率。了标签预测效率。了标签预测效率。

【技术实现步骤摘要】
一种标签预测方法、电子设备及存储介质
[0001]本申请要求于2022年02月27日提交中国专利局、申请号为202210115751.2、专利技术名称为“一种生成预测类用户标签的方法及电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及智慧化
,尤其涉及一种标签预测方法、电子设备及存储介质。

技术介绍

[0003]用户画像,指通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。用户画像可以由众多的用户标签构成,用户标签在营销、广告、人群洞察以及用户产品优化升级等方面能够起到重要作用。
[0004]当前业界已有一些用户标签的开发平台,例如一些标签工厂、EasyTag、标签平台等,可以为一些需要定制用户标签的企业等提供数据源接入、标签建模服务以及标签管理等服务。然而,目前的用户标签开发平台,在生成用户标签方面涉及机器学习/深度学习算法等,需要标签开发人员具备较深的算法知识积累,并且需要标签开发人员投入较多的代码开发工作量,开发门槛高,实现难度大。并且,开发人员在开发不同的用户标签预测模型时所使用的样本数据、人群特征数据等可能存在重复,但由于平台提供给开发人员的开发环境是孤立的,开发人员的开发过程完全分开,从而导致不同的开发人员可能会就相同的原始用户数据进行特征提取,即导致重复性工作,因此开发效率也比较低。

技术实现思路

[0005]为了实现上述目的,本申请实施例提供了以下技术方案:
[0006]本申请实施例提供了一种标签预测方法、电子设备及存储介质,基于该方法,能够大大简化开发人员预测目标用户标签人群操作流程,降低了开发相应标签预测模型的技术门槛,减少了开发人员的开发工作量,也因此提高了开发人员的工作效率。
[0007]第一方面,本申请实施例提供了一种标签预测方法,应用于电子设备,该方法包括:
[0008]获取用户选择的样本数据检索词和特征关键词;
[0009]基于样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据,并基于特征关键词从检索出的样本人群数据中提取出特征关键词对应类型的人群特征;
[0010]基于检索到的样本人群数据和特征关键词对应类型的人群特征,训练用户所需的标签预测模型。
[0011]上述用户在本申请实施例中即下文实施例中描述的开发人员,在另一些实施例中,也可以是开发人员以外的非技术人员,例如企业客户或者需要获取目标人群进行营销、
广告、宣传等用途的任何人。
[0012]上述方法即提供一个预先设置的公共的样本数据库,进而当用户例如开发人员为获取目标人群数据时,在人机交互界面上输入样本数据检索词以及特征关键词后,电子设备则能够从该样本数据库匹配出于样本数据检索词相对应的样本人群数据,并对匹配出的样本人群数据提取出与用户输入的特征关键词相对应的人群特征数据,进而自动训练出能够预测目标用户标签人群的标签预测模型,即用户所需的标签预测模型。
[0013]可以理解,实施本申请方案的电子设备上可以运行基于本申请的标签预测平台,以提供开发人员可以操作的人机交互界面,例如下文实施例中描述的开发界面。上述样本数据检索词例如可以是下文具体实施方式中示例描述的通用标签,上述特征关键词例如可以是下文具体实施方式中示例描述的通用特征。
[0014]在上述第一方面的一种可能的实现中,上述方法还包括:
[0015]获取待预测数据;
[0016]采用训练出的标签预测模型对待预测数据进行人群分类预测,得到目标标签对应标记的目标人群。
[0017]即电子设备自动训练出的标签预测模型,可以用于标签预测。即开发人员可以在电子设备上操作运行训练出的标签预测模型,对待预测的人群数据(即待预测数据)进行人群分类预测,从而预测得到目标用户标签对应标记的人群,即上述目标标签对应标记的目标人群。可以理解,基于标签预测模型预测得到目标人群的结果,可以是生成目标用户标签对应标记的人群文件,该人群文件中可以存入目标人群中各目标用户的ID等数据。具体可以参考下文实施例中相关描述,在此不做赘述。
[0018]在上述第一方面的一种可能的实现中,基于样本数据检索词检索出的样本人群数据与目标人群对应的人群数据包括至少一项等同的人群特征,其中,等同的人群特征包括特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值的人群特征;并且,特征关键词对应类型的人群特征包括等同的人群特征。
[0019]即基于样本数据检索词从样本数据库中检索出的样本人群数据与标签预测需要得到的目标人群对应的人群数据,可以具有至少一项相同或相近的人群特征,即上述等同的人群特征。具体可以体现为:样本人群数据的该类人群特征与目标人群数据的该类人群特征对应的特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值。
[0020]在上述第一方面的一种可能的实现中,基于样本数据检索词检索出的样本人群数据与目标人群对应的人群数据包括至少一项等同的人群特征,其中,等同的人群特征包括特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值的人群特征;并且,特征关键词对应类型的人群特征包括等同的人群特征。
[0021]在上述第一方面的一种可能的实现中,基于检索到的样本人群数据和特征关键词对应类型的人群特征,训练用户所需的标签预测模型,包括:
[0022]基于检索到的样本人群数据和特征关键词对应类型的人群特征,生成样本人群特征数据集;
[0023]将样本人群特征数据集输入预设分类算法并执行运算,训练用户所需的标签预测模型。
[0024]即训练标签预测模型的过程,可以通过将相应的样本人群特征数据集输入预设分类算法进行人群分类计算来实现,其中的样本人群特征数据集则可以根据从样本数据库中检索到的样本人群数据与指定的特征关键词对应类型的人群特征相关数据集合而成。上述样本数据库例如可以是下文具体实施方式中描述的公共样本库。
[0025]在上述第一方面的一种可能的实现中,基于检索到的样本人群数据和特征关键词对应类型的人群特征,生成样本人群特征数据集,还包括:
[0026]获取样本人群数据中各样本数据的ID识别信息和正负样本标识信息;
[0027]将ID识别信息和正负样本识别信息与提取出的特征关键词对应类型的人群特征进行数据拼接,以使样本人群数据中各样本数据与特征关键词对应类型的人群特征之间建立对应关系;
[0028]将拼接得到的数据集合作为样本人群特征数据集。
[0029]上述ID识别信息例如可以是下文实施例中步骤702和705中描述的用户id,上述正负样本标识信息例如可以是下文实施例中步骤702和705中描述的正负样本标记。具体生成样本人群特征数据集的实现过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签预测方法,应用于电子设备,其特征在于,包括:获取用户选择的样本数据检索词和特征关键词;基于所述样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据,并基于所述特征关键词从检索出的所述样本人群数据中提取出所述特征关键词对应类型的人群特征;基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,训练用户所需的标签预测模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待预测数据;采用训练出的所述标签预测模型对所述待预测数据进行人群分类预测,得到目标标签对应标记的目标人群。3.根据权利要求2所述的方法,其特征在于,基于所述样本数据检索词检索出的所述样本人群数据与所述目标人群对应的人群数据包括至少一项等同的人群特征,其中,所述等同的人群特征包括特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值的人群特征;并且,所述特征关键词对应类型的人群特征包括所述等同的人群特征。4.根据权利要求2所述的方法,其特征在于,所述基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,训练用户所需的标签预测模型,包括:基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,生成样本人群特征数据集;将所述样本人群特征数据集输入预设分类算法并执行运算,训练用户所需的标签预测模型。5.根据权利要求4所述的方法,其特征在于,所述基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,生成样本人群特征数据集,还包括:获取所述样本人群数据中各样本数据的ID识别信息和正负样本标识信息;将所述ID识别信息和所述正负样本识别信息与提取出的所述特征关键词对应类型的人群特征进行数据拼接,以使所述样本人群数据中各样本数据与所述特征关键词对应类型的人群特征之间建立对应关系;将拼接得到的数据集合作为所述样本人群特征数据集。6.根据权利要求4所述的方法,其特征在于,所述将所述样本人群特征数据集输入预设分类算法并执行运算,包括:检查所述样本人群特征数据集是否缺失特征数据;若所述样本人群特征数据集缺失所述样本人群数据中第一样本的第一特征数据,则将所述第一特征数据所对应的第一人群特征的多个特征数据中的众数,确定为缺失的所述第一特征数据的补全数据;将加入所述补全数据后的样本人群特征数据集输入预设分类算法并执行运算。7.根据权利要求6所述的方法,其特征在于,所述预设分类算法包括预设在算法库中的算法框架,并且,所述将...

【专利技术属性】
技术研发人员:徐萍胡昱肖刘林
申请(专利权)人:花瓣云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1