标签推荐模型训练方法及装置、标签获取方法及装置制造方法及图纸

技术编号:32640333 阅读:13 留言:0更新日期:2022-03-12 18:16
本公开提供了一种标签推荐模型训练方法及装置、标签获取方法及装置,涉及数据处理技术领域,尤其涉及深度学习、云服务、内容搜索等技术领域,具体实现方案为:响应于接收到收集训练素材指示,收集训练素材,所述训练素材包含兴趣标签;采用语义增强表示框架,对所述训练素材的特征进行表示,得到包括所述兴趣标签的训练语义向量;将社交网络聚合至所述训练语义向量中,得到训练编码向量;基于所述训练编码向量作为输入,所述兴趣标签作为输出,训练双层神经网络结构,得到标签推荐模型。通过本公开获取的兴趣标签更加精确。公开获取的兴趣标签更加精确。公开获取的兴趣标签更加精确。

【技术实现步骤摘要】
标签推荐模型训练方法及装置、标签获取方法及装置


[0001]本公开涉及数据处理
,尤其涉及深度学习、云服务、内容搜索等
,具体而言涉及一种标签推荐模型训练方法及装置、标签获取方法及装置。

技术介绍

[0002]兴趣画像包括基于规则、传统模型两种技术方案。属性画像可以是年龄、性别等固定属性,获取简单方便。兴趣画像表示的是兴趣爱好,例如偏好,技能,习惯等方面。两种技术方案的特点是特征,多采用文本表示特征。

技术实现思路

[0003]本公开提供了一种标签推荐模型训练方法及装置、标签获取方法及装置。
[0004]根据本公开的一方面,提供了一种标签推荐模型训练方法,所述方法包括:
[0005]响应于接收到收集训练素材指示,收集训练素材,所述训练素材包含兴趣标签;采用语义增强表示框架,对所述训练素材的特征进行表示,得到包括所述兴趣标签的训练语义向量;将社交网络聚合至所述训练语义向量中,得到训练编码向量;基于所述训练编码向量作为输入,所述兴趣标签作为输出,训练双层神经网络结构,得到标签推荐模型。
[0006]根据本公开的第二方面,提供了一种标签获取方法,所述方法包括:
[0007]响应于接收到获取兴趣标签指示,获取相应的素材;采用语义增强表示框架,对所述素材的特征进行表示,得到包括兴趣标签的语义向量;将社交网络聚合至所述语义向量中,得到编码向量;将所述编码向量输入至预先训练的标签推荐模型中,得到兴趣标签。
[0008]根据本公开的第三方面,提供了一种标签推荐模型训练装置,所述装置包括:
[0009]获取模块,用于响应于接收到收集训练素材指示,收集训练素材,所述训练素材包含兴趣标签;处理模块,用于采用语义增强表示框架,对所述训练素材的特征进行表示,得到包括所述兴趣标签的训练语义向量;还用于将社交网络聚合至所述训练语义向量中,得到训练编码向量;训练模块,用于基于所述训练编码向量作为输入,所述兴趣标签作为输出,训练双层神经网络结构,得到标签推荐模型。
[0010]根据本公开的第四方面,提供了一种标签获取装置,所述装置包括:
[0011]获取模块,用于响应于接收到获取兴趣标签指示,获取相应的素材;处理模块,用于采用语义增强表示框架,对所述素材的特征进行表示,得到包括兴趣标签的语义向量;还用于将社交网络聚合至所述语义向量中,得到编码向量;预测模块,用于将所述编码向量输入至预先训练的标签推荐模型中,得到兴趣标签。
[0012]根据本公开的第五方面,提供了一种电子设备,包括:
[0013]至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面所述的方法。
[0014]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面中所述的方法。
[0015]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面或第二方面所述的方法。
[0016]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0017]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0018]图1示出了本公开实施例提供的一种标签推荐模型训练方法的流程示意图;
[0019]图2示出了本公开实施例提供的一种确定训练语义向量方法的流程示意图;
[0020]图3示出了本公开实施例提供的一种语义向量表示的示意图;
[0021]图4示出了本公开实施例提供的一种确定训练编码向量方法的流程示意图;
[0022]图5示出了本公开实施例提供的一种训练模型方法的流程示意图;
[0023]图6示出了本公开实施例提供的一种神经网络的示意图;
[0024]图7示出了本公开实施例提供的一种标签推荐模型训练方法的流程示意图;
[0025]图8示出了本公开实施例提供的一种标签获取方法的流程示意图;
[0026]图9示出了本公开实施例提供的一种标签推荐模型使用方法的流程示意图;
[0027]图10示出了本公开实施例提供的一种标签获取方法的流程示意图;
[0028]图11示出了本公开实施例提供的一种标签推荐模型训练的结构示意图;
[0029]图12示出了本公开实施例提供的一种标签获取结构示意图;
[0030]图13是用来实现本公开实施例的电子设备的框图。
具体实施方式
[0031]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0032]标签在个性化推荐、搜索以及广告点击率预估等多种产品中有着广泛的应用,可以通过兴趣画像获取到准确的兴趣偏好、使用习惯和人口属性等。通过画像可以提升用户的对于产品的体验和收益。
[0033]一般标签可以分为属性标签和兴趣标签,属性标签用于表征年龄、性别、毕业院校等固定属性。兴趣标签可以包括偏好,拥有技能,习惯等多方面。而兴趣标签不仅应用范围广泛,也体现出千人千面的效果,以提高服务的准确性。
[0034]但在实际过程中,兴趣爱好是隐式的,一般难以收集或通过规则预测出来,甚至用户自身也很难准确的描述自己的兴趣爱好,在这种情况下,如何准确获取兴趣爱好,以及如何准确获取兴趣标签成为当下的关键问题。
[0035]相关技术中,在获取兴趣标签的方法采用一般规则或传统模型。例如,在一般规则中,通过人为定义的规则,给用户打上相关的标签,以应用场景为企业办公场景为例,若用
户在的工作的周报中多次提到“深度学习”,则打上“深度学习”的兴趣标签;若用户的主要工作是产品设计和规划,即分配“产品经理(Product Manager,PM)”标签等。在基于传统模型获取用户的兴趣标签时,基于传统模型的方法往往把标签预测转成文本的多分类任务。例如,收集用户的素材,其中素材可以是用户在办公场景下的工作内容,以及与工作内容相关的素材或者文档等。,从而在工作内容、与工作内容相关的素材或者文档中得到用户的特征。需要说明的是,上述工作内容均是在用户允许并同意的情况下获取的。之后应用极致梯度提升(eXtreme Gradient Boosting,XGBoost)、支持向量机(Support Vector Machine,SVM)等分类模型进行分类,其中,每个类别都可以是兴趣标签。
[0036]如上述实施方式,若采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签推荐模型训练方法,所述方法包括:响应于接收到收集训练素材指示,收集训练素材,所述训练素材包含兴趣标签;采用语义增强表示框架,对所述训练素材的特征进行表示,得到包括所述兴趣标签的训练语义向量;将社交网络聚合至所述训练语义向量中,得到训练编码向量;基于所述训练编码向量作为输入,所述兴趣标签作为输出,训练双层神经网络结构,得到标签推荐模型。2.根据权利要求1所述的方法,其中,所述训练素材包括行为训练素材和业务训练素材;所述采用语义增强表示框架,对所述训练素材的特征进行表示,得到包括兴趣标签的训练语义向量,包括:基于所述语义增强表示框架,将所述行为训练素材表示为不同长度的训练行为向量,将所述业务训练素材表示为固定长度的训练业务向量;将所述训练行为向量求平均之后,与所述训练业务向量进行融合,得到训练语义向量。3.根据权利要求1所述的方法,其中,所述将社交网络聚合至所述训练语义向量中,得到训练编码向量,包括:获取之间的社交网络,并确定社交网络之间的亲密值;将所述亲密值作为矩阵中元素的取值,构建邻接矩阵;在所述邻接矩阵中每行所述元素的权重和为一的条件下,为所述元素分配权重,所述邻接矩阵中对角线元素分配的权重大于其他元素分配的权重;获取所述邻接矩阵中每个元素对应的训练语义向量,基于图卷积网络,计算所述训练语义向量与分配权重之后每个元素取值之间的乘积,得到训练编码向量。4.根据权利要求1所述的方法,其中,所述基于所述训练编码向量作为输入,所述兴趣标签作为输出,训练双层神经网络结构,得到标签推荐模型,包括:将所述训练编码向量作为向前网络的输入,训练所述向前网络,得到新的训练编码向量;将所述新的训练编码向量再次作为全连接网络的输入,训练所述全连接网络,得到训练标签向量;将所述训练标签向量作为自变量,输出为兴趣标签,得到标签推荐模型。5.根据权利要求4所述的方法,其中,所述将所述训练标签向量作为自变量,输出为兴趣标签,得到标签推荐模型,包括:采用激活函数解析所述训练标签向量,得到所述训练标签向量中包含的兴趣标签;在所述兴趣标签中,确定与所述兴趣标签对应的第一兴趣标签,并计算所述第一兴趣标签在所述兴趣标签中占用的比例,确定标签推荐模型的概率阈值,得到输出标签概率大于或等于所述概率阈值的标签推荐模型。6.一种标签获取方法,所述方法包括:响应于接收到获取兴趣标签指示,获取相应的素材;采用语义增强表示框架,对所述素材的特征进行表示,得到包括兴趣标签的语义向量;将社交网络聚合至所述语义向量中,得到编码向量;
将所述编码向量输入至预先训练的标签推荐模型中,得到兴趣标签。7.根据权利要求6所述的方法,其中,所述将所述编码向量输入至预先训练的标签推荐模型中,得到兴趣标签,包括:将所述编码向量输入至所述标签推荐模型中的向前网络中,得到新的编码向量;将所述新的编码向量输入至全连接网络中,得到标签向量;解析所述标签向量,基于所述标签推荐模型中的概率阈值,输出兴趣标签。8.根据权利要求7所述的方法,其中,所述解析所述标签向量,基于所述标签推荐模型中的概率阈值,输出兴趣标签,包括:基于所述标签推荐模型中的激活函数,解析所述标签向量,得到多个标签;将所述多个标签中出现概率大于或等于概率阈值的标签,确定为兴趣标签。9.一种标签推荐模型训练装置,所述装置包括:获取模块,用于响应于接收到收集训练素材指示,收集训练素材,所述训练素材包含兴趣标签;处理模块,用于采用语义增强表示框架,对所述训练素材的特征进行表示...

【专利技术属性】
技术研发人员:骆金昌王海威步君昭陈坤斌和为
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1