用户画像方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:25439550 阅读:23 留言:0更新日期:2020-08-28 22:27
本发明专利技术提供一种用户画像方法、装置、计算机设备及计算机可读存储介质。所述用户画像方法获取用户属性和所述用户属性的标签集合,所述标签集合包括多个标签;确定所述标签集合对应的多个关键网站;获取用户的识别信息;根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息;根据判断结果生成所述用户的注册特征向量;根据所述判断结果生成所述用户的显著性特征向量;将所述注册特征向量和所述显著性特征向量组合为综合特征向量;用训练好的分类模型对所述综合特征向量进行识别,得到所述用户的标签。本发明专利技术提升了抽取用户的标签的准确率。

【技术实现步骤摘要】
用户画像方法、装置、计算机设备及计算机可读存储介质
本专利技术涉及实体识别
,具体涉及一种用户画像方法、装置、计算机设备及计算机可读存储介质。
技术介绍
用户画像被广泛运用于智能推荐、风控与服务等多个领域。用户画像是预测模型、风控体系的基础,而用户画像不够准确会导致很多建立在用户画像基础上的模型或技术难以展开。用户画像需要抽取用户的属性标签(如学历、性别等),现有的用户画像方法根据某一平台上的用户的社交、使用习惯数据抽取用户的属性标签,容易因数据单一、数据缺陷导致抽取用户属性标签的准确率低。如何提升抽取用户属性标签的准确率成为亟待解决的问题。
技术实现思路
鉴于以上内容,有必要提出一种用户画像方法、装置、计算机设备及计算机可读存储介质,其可以根据用户在各个网站的注册信息抽取出用户的标签,用抽取的用户的标签描述用户画像。本申请的第一方面提供一种用户画像方法,所述用户画像方法包括:获取用户属性和所述用户属性的标签集合,所述标签集合包括多个标签;确定所述标签集合对应的多个关键网站;获取用户的识别信息;根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息;根据判断结果生成所述用户的注册特征向量,所述注册特征向量反映所述用户在所述多个关键网站的注册状态;根据所述判断结果生成所述用户的显著性特征向量,所述显著性特征向量反映所述用户已注册的所述多个关键网站的网站数量和未注册的所述多个关键网站的网站数量;将所述注册特征向量和所述显著性特征向量组合为综合特征向量;用训练好的分类模型对所述综合特征向量进行识别,得到所述用户的标签。另一种可能的实现方式中,所述确定所述标签集合对应的多个关键网站包括:从多个网站中选择与所述用户属性关联的多个网站;用网站排名算法对选择的多个网站进行排名;将所述选择的多个网站中的排名靠前的预设数量的网站确定为所述多个关键网站。另一种可能的实现方式中,所述根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息包括:在所述多个关键网站中的指定关键网站搜索所述识别信息;若所述指定关键网站的搜索结果中包括所述识别信息,则所述指定关键网站存在所述用户的注册信息;若所述指定关键网站的搜索结果中不包括所述识别信息,则所述指定关键网站不存在所述用户的注册信息。另一种可能的实现方式中,所述根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息包括:根据所述识别信息从所述多个关键网站中的指定关键网站授权的接口查询所述用户的注册信息;若所述指定关键网站返回所述用户的注册信息,所述指定关键网站存在所述用户的注册信息;若所述指定关键网站没有返回所述用户的注册信息或返回值为空,所述指定关键网站不存在所述用户的注册信息。另一种可能的实现方式中,所述根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息包括:用所述识别信息向所述多个关键网站中的指定关键网站注册新账户;若所述指定关键网站提示所述用户已注册,则所述指定关键网站存在所述用户的注册信息;若所述指定关键网站提示输入注册验证信息,则所述指定关键网站不存在所述用户的注册信息。另一种可能的实现方式中,所述根据所述判断结果生成所述用户的显著性特征向量包括:确定所述多个关键网站中不存在所述用户的注册信息的网站的第一数量x1;确定所述多个关键网站中存在所述用户的注册信息的网站的第二数量x2;生成显著性特征向量其中,a、b为预设常数。另一种可能的实现方式中,若所述分类模型是支持向量机,在对支持向量机进行训练时,获取训练样本集,所述训练样本集中包括多个综合特征向量,每个综合特征向量对应一个标签;从所述训练样本集中选取与所述支持向量机的超平面最近的S个综合特征向量作为支持向量,得到支持向量集,S为预设值;根据多个综合特征向量、每个综合特征向量对应的标签和超平面参数计算所述支持向量集中的每个支持向量与超平面的距离,得到样本距离集合,其中超平面参数为预设值;判断所述样本距离集合中的最小值是否小于预设阈值;若所述样本距离集合中的最小值小于所述预设阈值,则更新所述超平面参数;若所述样本距离集合中的最小值不小于所述预设阈值,则将所述支持向量机设置为训练好的支持向量机。本申请的第二方面提供一种用户画像装置,所述用户画像装置包括:第一获取模块,用于获取用户属性和所述用户属性的标签集合,所述标签集合包括多个标签;确定模块,用于确定所述标签集合对应的多个关键网站;第二获取模块,用于获取用户的识别信息;判断模块,用于根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息;第一生成模块,用于根据判断结果生成所述用户的注册特征向量,所述注册特征向量反映所述用户在所述多个关键网站的注册状态;第二生成模块,用于根据所述判断结果生成所述用户的显著性特征向量,所述显著性特征向量反映所述用户已注册的所述多个关键网站的网站数量和未注册的所述多个关键网站的网站数量;组合模块,用于将所述注册特征向量和所述显著性特征向量组合为综合特征向量;识别模块,用于用训练好的分类模型对所述综合特征向量进行识别,得到所述用户的标签。本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述用户画像方法。本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述用户画像方法。本专利技术中,所述用户的显著性特征向量中包含了用于识别所述用户的标签的显著性特征,所以用训练好的分类模型对所述综合特征向量进行识别,可以提升识别用户的标签准确率。因此,本专利技术实现了根据用户在各个网站的注册信息抽取出用户的标签,提升了抽取用户的标签的准确率,用抽取的用户的标签描述用户画像,提升了描述用户画像的准确率。附图说明图1是本专利技术实施例提供的用户画像方法的流程图。图2是本专利技术实施例提供的用户画像装置的结构图。图3是本专利技术实施例提供的计算机设备的示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施例对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。...

【技术保护点】
1.一种用户画像方法,其特征在于,所述用户画像方法包括:/n获取用户属性和所述用户属性的标签集合,所述标签集合包括多个标签;/n确定所述标签集合对应的多个关键网站;/n获取用户的识别信息;/n根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息;/n根据判断结果生成所述用户的注册特征向量,所述注册特征向量反映所述用户在所述多个关键网站的注册状态;/n根据所述判断结果生成所述用户的显著性特征向量,所述显著性特征向量反映所述用户已注册的所述多个关键网站的网站数量和未注册的所述多个关键网站的网站数量;/n将所述注册特征向量和所述显著性特征向量组合为综合特征向量;/n用训练好的分类模型对所述综合特征向量进行识别,得到所述用户的标签。/n

【技术特征摘要】
1.一种用户画像方法,其特征在于,所述用户画像方法包括:
获取用户属性和所述用户属性的标签集合,所述标签集合包括多个标签;
确定所述标签集合对应的多个关键网站;
获取用户的识别信息;
根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息;
根据判断结果生成所述用户的注册特征向量,所述注册特征向量反映所述用户在所述多个关键网站的注册状态;
根据所述判断结果生成所述用户的显著性特征向量,所述显著性特征向量反映所述用户已注册的所述多个关键网站的网站数量和未注册的所述多个关键网站的网站数量;
将所述注册特征向量和所述显著性特征向量组合为综合特征向量;
用训练好的分类模型对所述综合特征向量进行识别,得到所述用户的标签。


2.如权利要求1所述的用户画像方法,其特征在于,所述确定所述标签集合对应的多个关键网站包括:
从多个网站中选择与所述用户属性关联的多个网站;
用网站排名算法对选择的多个网站进行排名;
将所述选择的多个网站中的排名靠前的预设数量的网站确定为所述多个关键网站。


3.如权利要求1所述的用户画像方法,其特征在于,所述根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息包括:
在所述多个关键网站中的指定关键网站搜索所述识别信息;
若所述指定关键网站的搜索结果中包括所述识别信息,则所述指定关键网站存在所述用户的注册信息;
若所述指定关键网站的搜索结果中不包括所述识别信息,则所述指定关键网站不存在所述用户的注册信息。


4.如权利要求1所述的用户画像方法,其特征在于,所述根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息包括:
根据所述识别信息从所述多个关键网站中的指定关键网站授权的接口查询所述用户的注册信息;
若所述指定关键网站返回所述用户的注册信息,所述指定关键网站存在所述用户的注册信息;
若所述指定关键网站没有返回所述用户的注册信息或返回值为空,所述指定关键网站不存在所述用户的注册信息。


5.如权利要求1所述的用户画像方法,其特征在于,所述根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息包括:
用所述识别信息向所述多个关键网站中的指定关键网站注册新账户;
若所述指定关键网站提示所述用户已注册,则所述指定关键网站存在所述用户的注册信息;
若所述指定关键网站提示输入注册验证信息,则所述指定关键网站不存在所述用户的注册信息...

【专利技术属性】
技术研发人员:张超亚
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1