信息推荐方法、装置、计算机设备、存储介质及程序产品制造方法及图纸

技术编号:39175855 阅读:7 留言:0更新日期:2023-10-27 08:23
本申请提供一种信息推荐方法、装置、计算机设备、存储介质及程序产品,涉及人工智能、大数据等技术领域。通过基于至少两个信息的事件簇标识,删除候选推荐列表中符合事件簇相似条件的信息得到推荐列表,从而避免同一推荐列表中集中出现相似信息,提高了推荐效率。通过嵌入网络获取各个信息的标题特征向量;对各个信息的标题特征向量进行向量聚类得到至少两个事件簇,每个事件簇包括属于同一事件的至少一个信息;本申请利用各个信息所属事件簇、将候选推荐列表中同一事件的信息快速过滤打散,提高推荐列表的丰富度和多样性,提高了信息推荐过程的实际推荐效率。且该嵌入网络是基于三元组训练得到,提高聚类准确性和信息推荐的准确性。性。性。

【技术实现步骤摘要】
信息推荐方法、装置、计算机设备、存储介质及程序产品


[0001]本申请涉及人工智能、大数据等
,本申请涉及一种信息推荐方法、装置、计算机设备、存储介质及程序产品。

技术介绍

[0002]在互联网快速发展的时代,信息流内容服务受到广泛欢迎,信息流内容服务平台中涌现出大量优质的原创内容。与此同时,有些内容发布者为了自己收益会抄袭、甚至直接搬运其他原创作者的内容,导致信息流内容服务平台中产生了大量的重复内容。信息流内容服务平台的重复内容较多,不仅使得原创作者利益受损,也对整个内容生态的健康发展产生不利影响。
[0003]相关技术中,通常会对信息流内容服务平台中内容进行去重检测,去重检测是针对各个内容的标题所包括的关键字检测标题是否重复,过滤掉标题关键字重复的内容,以进行推荐。
[0004]然而,有些搬运者修改标题后可以轻易避过去重检测,导致向客户端推荐的信息中实际仍会包括较多重复、相似内容,使得所推荐的信息的实际信息量较少。因此,上述信息推荐的实际推荐效率较低。

技术实现思路

[0005]本申请提供了一种信息推荐的方法、装置、计算机设备、存储介质及程序产品,可以解决相关技术中信息推荐的实际推荐效率较低的问题。所述技术方案如下:
[0006]一方面,提供了一种信息推荐方法,所述方法包括:
[0007]响应于任一对象的推荐请求,基于至少两个信息的事件簇标识,删除候选推荐列表中符合事件簇相似条件的信息,得到推荐列表,并向所述任一对象推荐所述推荐列表所对应的待推荐信息流;/>[0008]其中,所述事件簇相似条件包括与所述候选推荐列表中任一其它信息的事件簇标识相同;
[0009]所述事件簇标识的获取方式,包括:
[0010]通过已训练的嵌入网络,获取资源池中各个信息的标题特征向量;
[0011]对所述资源池中各个信息的标题特征向量进行向量聚类,得到至少两个事件簇,并为每个事件簇所包括的信息标记所述事件簇对应的事件簇标识,每个事件簇包括属于同一事件的至少一个信息;
[0012]其中,所述嵌入网络是基于至少两个三元组中锚点样本标题分别与正样本标题之间的第一相似度、以及与负样本标题之间的第二相似度进行训练得到的;
[0013]每个三元组包括锚点样本标题、正样本标题和负样本标题,所述锚点样本标题和所述正样本标题属于同一事件,所述锚点样本标题与所述负样本标题属于不同事件。
[0014]在一种可能实现方式中,所述资源池中各个信息的形态包括至少两种。
[0015]另一方面,提供了一种信息推荐装置,所述装置包括:
[0016]推荐列表确定模块,用于响应于任一对象的推荐请求,基于至少两个信息的事件簇标识,删除候选推荐列表中符合事件簇相似条件的信息,得到推荐列表;
[0017]推荐模块,用于向所述任一对象推荐所述推荐列表所对应的待推荐信息流;
[0018]其中,所述事件簇相似条件包括与所述候选推荐列表中任一其它信息的事件簇标识相同;
[0019]所述装置还用于获取所述事件簇标识,所述装置在获取所述事件簇标识时,还包括:
[0020]标题特征向量获取模块,用于通过已训练的嵌入网络,获取资源池中各个信息的标题特征向量;
[0021]聚类模块,用于对所述资源池中各个信息的标题特征向量进行向量聚类,得到至少两个事件簇,并为每个事件簇所包括的信息标记所述事件簇对应的事件簇标识,每个事件簇包括属于同一事件的至少一个信息;
[0022]其中,所述嵌入网络是基于至少两个三元组中锚点样本标题分别与正样本标题之间的第一相似度、以及与负样本标题之间的第二相似度进行训练得到的;
[0023]每个三元组包括锚点样本标题、正样本标题和负样本标题,所述锚点样本标题和所述正样本标题属于同一事件,所述锚点样本标题与所述负样本标题属于不同事件。
[0024]在一个可能实现方式中,所述装置还用于训练所述嵌入网络,所述装置在训练所述嵌入网络时,还包括:
[0025]样本数据集获取模块,用于获取样本数据集以及所述样本数据集中每个样本的标签;
[0026]其中,每个样本包括基准样本标题和候选样本标题,所述每个样本的标签包括第一事件标签和第二事件标签,所述第一事件标签指示所述候选样本标题与所述基准样本标题是否属于同一事件,所述第二事件标签指示所述候选样本标题与所述基准样本标题各自对应的正文是否属于同一事件;
[0027]三元组构造模块,用于基于所述样本数据集中每个样本的标签,构造所述至少两个三元组;
[0028]相似度确定模块,用于基于每个三元组中的锚点样本标题、正样本标题和负样本标题的各自的特征向量,分别确定所述锚点样本标题与所述正样本标题之间的第一相似度、以及所述锚点样本标题与所述负样本标题之间的第二相似度,其中,所述锚点样本标题、正样本标题和负样本标题的各自的特征向量是通过初始嵌入网络分别对锚点样本标题、正样本标题和负样本标题进行特征提取得到的;
[0029]训练模块,用于基于所述第一相似度和所述第二相似度之间的差异,对所述初始嵌入网络进行训练,得到所述嵌入网络。
[0030]在一个可能实现方式中,所述训练模块,还用于当所述第二相似度与所述第一相似度之间的差值不高于目标数值时,对所述初始嵌入网络进行迭代训练,直至所述第二相似度高于所述第一相似度所述目标数值时停止训练,得到所述嵌入模型。
[0031]在一个可能实现方式中,所述三元组构造模块,包括:
[0032]标题对获取单元,用于基于所述样本数据集中每个样本的标签,从所述样本数据
集中获取至少两个标题对,每个标题对包括属于同一事件的锚点样本标题和正样本标题;
[0033]距离确定单元,用于对于每个标题对,基于所述标题对中的锚点样本标题和正样本标题各自的特征向量,获取所述锚点样本标题和正样本标题之间的第一距离,并基于至少一个备选样本标题和所述锚点样本标题各自的特征向量,获取所述至少一个备选样本标题与锚点样本标题之间的第二距离;
[0034]三元组确定单元,用于基于各个标题对所对应的第一距离和第二距离,分别确定第一类三元组、第二类三元组和第三类三元组;
[0035]其中,所述第一类三元组对应的第二距离和第一距离之间的差值大于目标数值,所述第二类三元组对应的第一距离小于第二距离、且第一距离与目标数值之和大于第二距离,所述第三类三元组对应的第二距离小于第一距离。
[0036]在一个可能实现方式中,所述标题对获取单元,用于:
[0037]对于每次迭代训练,从所述样本数据集中获取当前迭代训练采用的批次样本数据;
[0038]基于所述批次样本数据中每个样本的标签,从所述批次样本数据集中获取所述至少两标题对;
[0039]相应的,所述装置还包括:
[0040]备选样本标题获取单元,用于从所述批次样本数据在获取所述至少一个备选样本标题。
[0041]在一个可能实现方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息推荐方法,其特征在于,所述方法包括:响应于任一对象的推荐请求,基于至少两个信息的事件簇标识,删除候选推荐列表中符合事件簇相似条件的信息,得到推荐列表,并向所述任一对象推荐所述推荐列表所对应的待推荐信息流;其中,所述事件簇相似条件包括与所述候选推荐列表中任一其它信息的事件簇标识相同;所述事件簇标识的获取方式,包括:通过已训练的嵌入网络,获取资源池中各个信息的标题特征向量;对所述资源池中各个信息的标题特征向量进行向量聚类,得到至少两个事件簇,并为每个事件簇所包括的信息标记所述事件簇对应的事件簇标识,每个事件簇包括属于同一事件的至少一个信息;其中,所述嵌入网络是基于至少两个三元组中锚点样本标题分别与正样本标题之间的第一相似度、以及与负样本标题之间的第二相似度进行训练得到的;每个三元组包括锚点样本标题、正样本标题和负样本标题,所述锚点样本标题和所述正样本标题属于同一事件,所述锚点样本标题与所述负样本标题属于不同事件。2.根据权利要求1所述的信息推荐方法,其特征在于,所述嵌入网络的训练方式,包括:获取样本数据集以及所述样本数据集中每个样本的标签;其中,每个样本包括基准样本标题和候选样本标题,所述每个样本的标签包括第一事件标签和第二事件标签,所述第一事件标签指示所述候选样本标题与所述基准样本标题是否属于同一事件,所述第二事件标签指示所述候选样本标题与所述基准样本标题各自对应的正文是否属于同一事件;基于所述样本数据集中每个样本的标签,构造所述至少两个三元组;基于每个三元组中的锚点样本标题、正样本标题和负样本标题的各自的特征向量,分别确定所述锚点样本标题与所述正样本标题之间的第一相似度、以及所述锚点样本标题与所述负样本标题之间的第二相似度,其中,所述锚点样本标题、正样本标题和负样本标题的各自的特征向量是通过初始嵌入网络分别对锚点样本标题、正样本标题和负样本标题进行特征提取得到的;基于所述第一相似度和所述第二相似度之间的差异,对所述初始嵌入网络进行训练,得到所述嵌入网络。3.根据权利要求2所述的信息推荐方法,其特征在于,所述基于所述第一相似度和所述第二相似度之间的差异,对所述初始嵌入网络进行训练,得到所述嵌入网络,包括:当所述第二相似度与所述第一相似度之间的差值不高于目标数值时,对所述初始嵌入网络进行迭代训练,直至所述第二相似度高于所述第一相似度所述目标数值时停止训练,得到所述嵌入模型。4.根据权利要求3所述的信息推荐方法,其特征在于,所述基于所述样本数据集中每个样本的标签,构造所述至少两个三元组,包括:基于所述样本数据集中每个样本的标签,从所述样本数据集中获取至少两个标题对,每个标题对包括属于同一事件的锚点样本标题和正样本标题;对于每个标题对,基于所述标题对中的锚点样本标题和正样本标题各自的特征向量,
获取所述锚点样本标题和正样本标题之间的第一距离,并基于至少一个备选样本标题和所述锚点样本标题各自的特征向量,获取所述至少一个备选样本标题与锚点样本标题之间的第二距离;基于各个标题对所对应的第一距离和第二距离,分别确定第一类三元组、第二类三元组和第三类三元组;其中,所述第一类三元组对应的第二距离和第一距离之间的差值大于目标数值,所述第二类三元组对应的第一距离小于第二距离、且第一距离与目标数值之和大于第二距离,所述第三类三元组对应的第二距离小于第一距离。5.根据权利要求4所述的信息推荐方法,其特征在于,所述基于所述样本数据集中每个样本的标签,从所述样本数据集中获取至少两个标题对,包括:对于每次迭代训练,从所述样本数据集中获取当前迭代训练采用的批次样本...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1