挖掘用户职业的方法、装置、计算机可读存储介质和终端设备制造方法及图纸

技术编号:21833053 阅读:15 留言:0更新日期:2019-08-10 18:09
本发明专利技术属于机器学习领域,提供了一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备,以精确预测用户的职业类型。所述方法包括:提取样本用户的特征值并将样本用户的特征值转换为样本用户的特征词;根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量;将待挖掘用户的嵌入向量与每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。本发明专利技术提供的技术方案一方面使得待挖掘用户与职业标签能够精确匹配;另一方面,在将待挖掘用户的嵌入向量与职业标签嵌入向量相匹配时,无需大量计算资源,计算速度极快。

Methods, devices, computer-readable storage media and terminal devices for mining user occupations

【技术实现步骤摘要】
挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
本专利技术属于机器学习领域,尤其涉及一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备。
技术介绍
伴随着智能移动技术的发展,智能移动终端上安装的应用越来越多。用户通过应用的客户端接入互联网,与其他用户进行广泛的交互。有业界人士统计过,用户通过应用进行交互,在一小时中总共产生的数据是以T(1T=1024G)字节度量的。因此,在数据泛滥的今天,如何通过高效的手段精准挖掘一些应用的用户的信息,例如,社交类应用的用户的职业信息等,是许多业界人士研究和感兴趣的课题。现有技术在挖掘用户的信息时,往往是基于用户个人的文本类数据进行,但这种方式存在极大的缺陷,其主要原因在于这种处理方式过于依赖自然语言处理技术。然而,理解自然语言,尤其是互联网上常见的短文本,需要大量的背景知识和上下文信息。在缺乏这些信息的情形下,即使是人工也无法准确理解文本的含义,目前的很多计算机算法对文本含义的识别效率和准确率也同样不理想。例如,社交类应用的用户过社交类应用发出一条包含“福田”的短语,由于“福田”既可以指深圳的福田区,又可以指“福田汽车”,在缺乏上下文信息的情形下,现有的挖掘用户的信息方法无法判断这个发出包含“福田”的短语的用户只是居住在深圳福田区的一位普通市民(例如,退休在家的大妈或大爷),还是福田汽车4S店的一位销售人员。综上,现有的挖掘用户的信息,例如,职业信息的方法召回率和准确率都偏低,无法满足大数据时代人们对信息准确获取的要求。
技术实现思路
本专利技术的目的在于提供一种挖掘用户职业的方法、装置、计算机可读存储介质和终端设备,以精确预测用户的职业类型。本专利技术第一方面提供一种挖掘用户职业的方法,所述方法包括:提取样本用户的特征值,将所述样本用户的特征值转换为样本用户的特征词;根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。本专利技术第二方面提供一种挖掘用户职业的装置,所述装置包括:特征转换模块,用于提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;嵌入向量获取模块,用于根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;匹配模块,用于将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。本专利技术第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下方法的步骤:提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。本专利技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法的步骤:提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。从上述本专利技术技术方案可知,一方面,待挖掘用户和职业标签用隶属同一向量空间的嵌入向量表示而非自然语言表示,本质含义相同的词语其嵌入向量之间的距离最短甚至为零,这就使得待挖掘用户的嵌入向量与职业标签嵌入向量进行相似度计算成为可能,也使得待挖掘用户与职业标签能够精确匹配;另一方面,在将待挖掘用户的嵌入向量与职业标签嵌入向量相匹配时,只需要极少数的向量加乘操作即可完成,无需大量计算资源,计算速度极快,适于在计算资源宝贵且要求计算速度快的应用。附图说明图1是本专利技术实施例提供的挖掘用户职业的方法的实现流程示意图;图2本专利技术实施例提供的挖掘用户职业的装置的结构示意图;图3是本专利技术另一实施例提供的挖掘用户职业的装置的结构示意图;图4是本专利技术另一实施例提供的挖掘用户职业的装置的结构示意图;图5-a是本专利技术另一实施例提供的挖掘用户职业的装置的结构示意图;图5-b是本专利技术另一实施例提供的挖掘用户职业的装置的结构示意图;图5-c是本专利技术另一实施例提供的挖掘用户职业的装置的结构示意图;图6是本专利技术实施例提供的终端设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术的技术方案,下面结合社交销售即利用微信等社交软件在网络上发掘潜在客户、拿下订单和维护客户关系的实例来进行说明。附图1是本专利技术实施例提供的挖掘用户职业的方法的实现流程示意图,主要包括以下步骤S101至S103,以下详细说明:S101,提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词。在本专利技术实施例中,若以利用微信等社交软件在网络上发掘潜在客户、拿下订单和维护客户关系的社交销售为例,用户可以指微信等社交软件的用户,而样本用户是指其数据将用于后续训练模型的样本数据的用户。样本用户的特征主要是指除了职业类型之外,能够将一个样本用户与另一样本用户区别开来的数据或信息,这些数据或信息的具体取值就是样本用户的特征值。例如,对于一个判断用户信用卡还款能力的机器学习问题,若认为采用样本用户的学历和收入水平衡量就足够了,则可以采用这两个数据去建模预测样本用户的还款能力,在这个示例中,学历和收入水平可以作为“样本用户的特征”,其具体的数值就是“样本用户的特征值”。上述的学历和收入水平等具有静态特征的数据仅仅是“样本用户的特征”的简单示例,实际上,不同职业的用户,其行为特点,例如添加好友、浏览文章、转发文章、发表评论以及这些行为的频率等等也可以作为其特征。例如,利用微信等社交类应用进行社交销本文档来自技高网...

【技术保护点】
1.一种挖掘用户职业的方法,其特征在于,所述方法包括:提取样本用户的特征值,将所述样本用户的特征值转换为样本用户的特征词;根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。

【技术特征摘要】
1.一种挖掘用户职业的方法,其特征在于,所述方法包括:提取样本用户的特征值,将所述样本用户的特征值转换为样本用户的特征词;根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,所述职业标签嵌入向量和所述待挖掘用户的嵌入向量隶属同一向量空间;将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。2.如权利要求1所述的挖掘用户职业的方法,其特征在于,所述根据所述样本用户的特征词和所述样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,包括:使用所述样本用户的特征词和所述样本用户的职业标签训练嵌入向量输出模型,构建已训练嵌入向量输出模型;将职业标签和所述待挖掘用户的特征词输入所述已训练嵌入向量输出模型,以输出所述所有职业标签嵌入向量和所述待挖掘用户的嵌入向量。3.如权利要求2所述的挖掘用户职业的方法,其特征在于,所述使用所述样本用户的特征词和所述样本用户的职业标签训练嵌入向量输出模型,构建已训练嵌入向量输出模型,包括:初始化所述样本用户的嵌入向量和职业标签嵌入向量;以所述样本用户的特征词和所述样本用户的职业标签作为样本数据训练所述嵌入向量输出模型,直至损失函数取值最小时训练结束,训练结束时获得的嵌入向量输出模型作为所述已训练嵌入向量输出模型,所述损失函数为衡量所述待挖掘用户的实际职业标签和根据所述已训练嵌入向量输出模型预测出待挖掘用户的职业标签之间差值的函数。4.如权利要求3所述的挖掘用户职业的方法,其特征在于,所述损失函数为所述a表示样本用户A的特征词,所述b表示所述样本用户A的职业标签,所述表示除所述b之外的职业标签,所述sim(a,b)或所述为余弦相似度计算公式。5.如权利要求1至4任意一项所述的挖掘用户职业的方法,其特征在于,所述将所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与所述待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签,包括:计算所述待挖掘用户的嵌入向量与所述所有职业标签嵌入向量中的每一个职业标签嵌入向量的余弦相似度,将所述余弦相似度最大时职业标签嵌入向量对应的职业标签作为所述待挖掘用户的职业标签。6.一种挖掘用户职业的装置,其特征在于,所述装置包括:特征转换...

【专利技术属性】
技术研发人员:张宗一梁晨曦谷皓凌国惠张功源
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1