打标签方法、推荐方法及记录介质技术

技术编号:21914141 阅读:27 留言:0更新日期:2019-08-21 12:29
本公开内容涉及打标签方法、推荐方法及记录介质。根据本公开内容的一个实施例,该打标签方法包括:从目标内容的文本部分选择多个关键词;使用语言模型确定各关键词的相应关键词向量;通过对各相应关键词向量加权求和确定目标内容的内容向量;基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度;以及基于各相似度确定目标内容的内容类别标签;其中,标签集中的各标签为指示目标内容的候选类别的类别指示词;并且各标签向量是由语言模型基于相应类别指示词确定的向量。本公开内容的方案至少有助于实现如下效果之一:准确地为内容分配标签、实时为内容分配标签、向用户推荐匹配的内容。

Labeling Method, Recommendation Method and Recording Media

【技术实现步骤摘要】
打标签方法、推荐方法及记录介质
本公开内容总体上涉及信息处理,更具体地,涉及打标签方法、推荐方法以及存储有执行前述方法的程序的计算机可读记录介质。
技术介绍
近年来,随着互联网的蓬勃发展,在网络上发布内容及向用户推荐内容越来越普遍。如何向用户有效地推荐内容是重要的研究方向。
技术实现思路
在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。网络上发布的内容涉及各种类别。例如,运动健身、家政服务、鲜花礼品、婚纱摄影等。用户感兴趣的内容的类别也是多样的。例如,在一定的时间段内,用户可能仅对运动健身感兴趣。或者,用户对某些领域感兴趣,对某些领域缺乏兴趣。可以理解,考虑到前述事实,为了向用户有效推荐内容并提高用户针对推荐内容的点击率,通过对内容打标签以将内容进行分类,从而可以向对特定类型的内容感兴趣的用户推荐具有相应标签的内容。因此,准确且有效的为内容分配标签是期望的。根据本公开内容的一方面,提供了一种打标签方法,包括:从目标内容的文本部分选择多个关键词;使用语言模型确定各关键词的相应关键词向量;通过对各相应关键词向量加权求和确定目标内容的内容向量;基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度;以及基于各相似度确定目标内容的内容类别标签;其中,标签集中的各标签为指示目标内容的候选类别的类别指示词;并且各标签向量是由语言模型基于相应类别指示词确定的向量。根据本公开内容的一方面,提供了一种推荐方法,包括:基于多个内容中的每个的内容类别标签集和用户的感兴趣内容类别集确定用于向用户推荐的候选内容集;从候选内容集选择向用户推荐的推荐内容;以及生成向用户显示推荐内容的表示的指示;其中,指示用于供用户选择;并且多个内容包括目标内容,目标内容的内容类别标签集中的至少一个内容类别标签是通过前述打标签方法来被确定。根据本公开内容的另一方面,提供了存储有程序的计算机可读记录介质,其中,该程序使计算机执行前述的打标签方法。根据本公开内容的又一方面,提供了一种存储有程序的计算机可读记录介质,其中,该程序使计算机执行前述推荐方法。本公开内容的打标签方法、推荐方法以及记录介质至少有助于实现如下效果之一:高效地为内容分配标签、准确地为内容分配标签、实时为内容分配标签、向用户推荐匹配的内容、提高内容的点击率、以及容易地实现新内容的冷启动。附图说明参照附图下面说明本公开内容的实施例,这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。在附图中:图1示出了根据本公开内容的一个实施例的打标签方法的示例性流程图;图2示出了根据本公开内容的一个实施例的选择多个关键词的方法的示例性流程图;图3示出了根据本公开内容的一个实施例的推荐方法的示例性流程图;图4示出了根据本公开内容的一个实施例的打标签装置的示例性框图;以及图5示出了根据本公开内容的一个实施例的推荐装置的示例性框图。具体实施方式在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开内容,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开内容关系不大的其他细节。应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。根据本公开内容的一个方面,本公开内容涉及确定内容的标签的打标签方法。下面参考图1示例性描述本公开内容的打标签方法。图1示出了根据本公开内容的一个实施例的打标签方法100的示例性流程图。能够理解的是,可能有多个要分配标签的内容,可以使用打标签方法100来逐一或并行地为这些内容打标签(内容的标签也称为内容类别标签)。在此,选择多个内容中的一个作为目标内容CO来示例性的说明打标签方法100。在步骤101处,选择关键词,其中,关键词的数量为多个,并且关键词来自目标内容的文本部分。可以使用KWj来表示各关键词,j为索引,j取1至最大值jmax中的一个,并且jmax表示针对目标内容CO选择的关键词的数量。使用多个关键词有助于准确、全面表征目标内容CO所涉及的领域或类别,有助于准确、全面的为目标内容分配内容类别标签。目标内容CO包括文本部分。目标内容CO可以是多媒体内容、广告、文章、商品信息或图像。关键词的数量可以为2、3、4、5、6、7、8、9、10或更多。例如,可以根据目标内容CO的文本部分的长短选择合适的jmax。进一步的,例如,可以根据目标内容CO的文本部分的最小文本长度选择合适的jmax。文本部分可以包括目标内容中的图像或音频中包含的文字。图像中的文字例如可以通过光学字符识别来获取。音频中的文字例如可以通过语音识别来获取。文本部分可以包含标题部分和正文部分。在步骤102处,确定相应关键词向量VKj,其中,相应关键词向量VKj是关键词KWj的关键词向量,并且使用语言模型ML来确定相应关键词向量VKj。语言模型ML可以将输入的词映射为一个向量。在步骤103处,确定内容向量VC,其中,该内容向量VC为表征目标内容CO的向量,并且是通过对各相应关键词向量VKj加权求和来确定内容向量VC。在步骤104处,确定相似度SIi,其中,这里的相似度是目标内容CO关于标签集{Li}中的各标签Li的相似度SIi,相似度SIi是基于基于内容向量VC和标签Li的标签向量VLi来确定。i是索引,可以取1至imax,imax表示标签集{Li}中标签个数,即,目标内容CO的候选类别的数量。标签集{Li}中的各标签Li为指示目标内容CO的候选类别的类别指示词WIi。各标签向量VLi是由语言模型ML基于相应类别指示词WIi确定的向量。相似度SIi可以为内容向量VC与标签向量VLi的夹角的余弦,即,两向量的点乘与它们的模的积的比值。需要说明的是:在本公开内容中,除非特别说明,否则用标识{ei}表示包含元素e1、……、emax的集合,即i=1、……、max,并不是仅指包含一个元素ei的集合,即标识{ei}表示包括一个或多个元素的集合。在步骤105处,确定目标内容CO的内容类别标签LCk,其中,基于各相似度SIi确定内容类别标签LCk,k为索引,且k可以取1至kmax,kmax表示目标内容CO关于标签集{Li}的内容类别标签的数量。例如,当相似度SIi大于或等于预定相似度阈值Th,则将该相似度SIi所对应的标签Li分配给目标内容CO,作为目标内容CO的内容类别标签。可选的,可以将imax个相似度按降序排列,选择前kmax个相似度所对应的标签分配给目标内本文档来自技高网...

【技术保护点】
1.一种打标签方法,包括:从目标内容的文本部分选择多个关键词;使用语言模型确定各关键词的相应关键词向量;通过对各相应关键词向量加权求和确定所述目标内容的内容向量;基于所述内容向量和标签集中的各标签的标签向量确定所述目标内容关于各标签的相似度;以及基于各相似度确定所述目标内容的内容类别标签;其中,所述标签集中的各标签为指示所述目标内容的候选类别的类别指示词;并且各标签向量是由所述语言模型基于相应类别指示词确定的向量。

【技术特征摘要】
1.一种打标签方法,包括:从目标内容的文本部分选择多个关键词;使用语言模型确定各关键词的相应关键词向量;通过对各相应关键词向量加权求和确定所述目标内容的内容向量;基于所述内容向量和标签集中的各标签的标签向量确定所述目标内容关于各标签的相似度;以及基于各相似度确定所述目标内容的内容类别标签;其中,所述标签集中的各标签为指示所述目标内容的候选类别的类别指示词;并且各标签向量是由所述语言模型基于相应类别指示词确定的向量。2.根据权利要求1所述的打标签方法,其中,所述标签集中的各标签选自二级行业类别。3.根据权利要求1所述的打标签方法,其中,从目标内容的文本部分选择多个关键词包括:对所述文本部分进行分词以得到多个候选关键词;确定各候选关键词的关于所述文本部分的词频;确定各候选关键词的关于预定语料库的逆文档频率;以及基于各候选关键词的词频与逆文档频率的积选择预定数量的候选关键词作为所述多个关键词。4.根据权利要求1所述的打标签方法,其中,通过对各相应关键词向量加权求和确定所述目标内容的内容向量包括:确定各关键词的类别;以及基于各关键词的类别确定各相应关键词向量的相应权重。5.根据权利要求4所述的打标签方法,其中,所述类别选自于由以下构成...

【专利技术属性】
技术研发人员:张炜
申请(专利权)人:智者四海北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1