一种资讯推荐池构建方法、系统及计算机存储介质技术方案

技术编号:33132821 阅读:31 留言:0更新日期:2022-04-17 00:53
本发明专利技术公开一种资讯推荐池构建方法、系统及计算机存储介质。其中,该方法包括:获取当前时段待筛选的全部资讯并通过筛选条件进行筛选,得到当前时段待进入队列模块的资讯,提升了进入推荐池内资讯的质量;推荐池包括队列模块;根据当前时段队列模块的目标队列长度、来源个数阈值、分类个数阈值以及待进入队列模块的资讯与队列模块中资讯的内容特征的相似度阈值,将当前时段待进入队列模块的资讯送入到队列模块中并实时更新其中的资讯,增加了推荐池内资讯的多样性,减少了热点过于集中的问题;通过队列长度调整算法定时更新当前时段队列模块的目标队列长度,实现了目标队列长度可伸缩,解决了资讯发布在不同时段不均匀导致推荐池波动较大的问题。荐池波动较大的问题。荐池波动较大的问题。

【技术实现步骤摘要】
一种资讯推荐池构建方法、系统及计算机存储介质


[0001]本专利技术涉及人工智能
,具体而言,涉及一种资讯推荐池构建方法、系统及计算机存储介质。

技术介绍

[0002]随着互联网的发展,资讯的发布越发便捷,资讯的数量也呈现爆炸式增长。推荐系统通过用户的属性或行为,在海量资讯中找到用户可能感兴趣的内容,解决了信息过载问题。推荐系统通过构建推荐池,实现了资讯发布者和用户之间的纽带,资讯的发布者将内容发布后,推荐系统将该资讯存入推荐池中,当用户需要阅读时,推荐系统根据用户的属性或偏好,在推荐池中找到用户可能感兴趣的内容推荐给用户。推荐池质量的提升,不仅可以提高产品的推荐质量,更可以提升用户满意度。
[0003]现有的推荐池构建技术包括两种,一种是根据时间范围构建,将发布时间符合指定时间范围的资讯存入推荐池中;一种是根据资讯质量构建,将满足一定质量的资讯存入推荐池中。但是现有的技术有以下缺陷:一是由于资讯内容千差万别,很难用简单的规则筛选出高质量结果,导致进入推荐池的资讯质量难以保证,如果人工筛选高质量结果,又会使资讯上线不及时导致推荐内容时效性差;二是由于资讯发布者有其活跃周期,资讯的发布数量在各时段上并不均匀,导致推荐池内资讯数量波动较大,在发布数量较高的时段推荐池内资讯数量过多,导致推荐计算时间延长,进而导致推荐系统响应超时,在发布量较少的时段推荐池内资讯数量过少,导致推荐系统难以匹配到符合用户兴趣的内容,进而导致推荐质量下降;三是由于热点的资讯数量较多,导致推荐池内会存在大量相似的内容。
[0004]针对现有技术中根据时间范围构建推荐池或者根据资讯质量构建推荐池所造成的资讯质量难以保证、推荐时效性差、推荐池内存在大量相似的内容的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例中提供一种资讯推荐池构建方法、系统及计算机存储介质,以解决现有技术中根据时间范围构建推荐池或者根据资讯质量构建推荐池所造成的资讯质量难以保证、推荐时效性差、推荐池内存在大量相似的内容的问题。
[0006]为达到上述目的,一方面,本专利技术提供了一种资讯推荐池构建方法,该方法包括:S1.获取当前时段待筛选的全部资讯,将所述当前时段待筛选的全部资讯通过筛选条件进行筛选,得到当前时段待进入队列模块的资讯;所述推荐池包括所述队列模块;S2.根据所述当前时段队列模块的目标队列长度、所述当前时段队列模块中资讯的来源个数阈值、所述当前时段队列模块中资讯的分类个数阈值以及所述当前时段待进入队列模块的资讯与当前时段队列模块中资讯的内容特征的相似度阈值,将所述当前时段待进入队列模块的资讯逐条送入到所述当前时段队列模块中并实时更新所述当前时段队列模块中的资讯;其中,所述当前时段队列模块的目标队列长度为所述当前时段队列模块中所能容纳的资讯的
总数量;S3.通过队列长度调整算法定时更新所述当前时段队列模块的目标队列长度。
[0007]可选的,所述筛选条件包括:判定所述当前时段待筛选的全部资讯中不含有违禁和敏感词词表中词语;判定所述当前时段待筛选的全部资讯通过内容质量评分模型生成的内容质量评分超过第一预设阈值;判定所述当前时段待筛选的全部资讯通过发布者评分模型生成的发布者评分超过第二预设阈值。
[0008]可选的,在所述获取当前时段待筛选的全部资讯之前包括:构建所述违禁和敏感词词表;获取历史资讯,将所述历史资讯的属性信息通过分类模型训练得到所述内容质量评分模型;将所述历史资讯的发布者信息通过所述分类模型训练得到所述发布者评分模型;所述分类模型包括:朴素贝叶斯模型、逻辑回归模型、决策树模型。
[0009]可选的,所述将所述当前时段待进入队列模块的资讯逐条送入到所述当前时段队列模块中并实时更新所述当前时段队列模块中的资讯包括:将当前时段待进入队列模块的每条资讯均做如下处理:S21.判断所述当前时段队列模块的资讯数量是否为0,若是,执行S28;若否,执行S22;S22.将所述当前时段队列模块中资讯的分值清0,获取当前条资讯的来源,并判断所述当前时段队列模块中符合所述来源的资讯数量是否超过所述来源个数阈值,若是,执行S23;若否,执行S24;S23.将所述当前时段队列模块中符合所述来源的资讯的分值加1,获取所述当前条资讯的分类,判断所述当前时段队列模块中符合所述分类的资讯数量是否超过所述分类个数阈值,若是,执行S26;若否,执行S27;S24.获取所述当前条资讯的分类,判断所述当前时段队列模块中符合所述分类的资讯数量是否超过所述分类个数阈值,若是,执行S26;若否,执行S25;S25.判断所述当前时段队列模块中资讯的总数量是否超过所述当前时段队列模块的目标队列长度,若是,执行S27;若否,执行S28;S26.将所述当前时段队列模块中符合所述分类的资讯的分值加1;S27.获取所述当前条资讯的内容特征,判断所述当前时段队列模块中每条资讯的内容特征与所述当前条资讯的内容特征的相似度是否超过所述相似度阈值,若是,将所述当前时段队列模块中对应的资讯的分值加1,并将所述当前时段队列模块中出现的第一个最大分值对应的资讯删除;S28.将所述当前条资讯送入到所述当前时段队列模块中。
[0010]可选的,所述将所述当前时段队列模块中出现的第一个最大分值对应的资讯删除包括:当判定所述当前时段队列模块中全部资讯的分值相等时,将所述当前时段队列模块中的资讯按进入所述当前时段队列模块中的顺序排列并将排列后的第一个资讯删除;当判定所述当前时段队列模块中有多个资讯的分值为最大分值时,将所述当前时段队列模块中多个最大分值的资讯按进入所述当前时段队列模块中的顺序排列并将排列后的第一个最大分值的资讯删除。
[0011]可选的,所述通过队列长度调整算法定时更新所述当前时段队列模块的目标队列长度包括:获取历史资讯,根据所述历史资讯计算得到下一时段待筛选的全部资讯数量以及历史各时段待筛选的全部资讯数量;将所述下一时段待筛选的全部资讯数量以及历史各时段待筛选的全部资讯数量通过所述队列长度调整算法计算得到下一时段队列模块的目标队列长度,其计算公式为:
[0012][0013]其中,L为下一时段队列模块的目标队列长度,{X}为历史各时段待筛选的全部资
讯数量的数值集合,min{X}为历史各时段待筛选的全部资讯数量中最小值,max{X}为历史各时段待筛选的全部资讯数量中最大值,X
t
表示当前时段待筛选的全部资讯数量,X
t+1
表示下一时段待筛选的全部资讯数量,α为队列伸缩系数,α取值范围为(0,0.5],N表示人工设定的目标队列长度最小值,β为平滑系数,为平滑计算。
[0014]另一方面,本专利技术提供了一种资讯推荐池构建系统,该系统包括:获取单元,用于获取当前时段待筛选的全部资讯,将所述当前时段待筛选的全部资讯通过筛选条件进行筛选,得到当前时段待进入队列模块的资讯;所述推荐池包括所述队列模块;实时更新单元,用于根据所述当前时段队列模块的目标队列长度、所述当前时段队列模块中资讯的来源个数阈值、所述当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资讯推荐池构建方法,其特征在于,包括:S1.获取当前时段待筛选的全部资讯,将所述当前时段待筛选的全部资讯通过筛选条件进行筛选,得到当前时段待进入队列模块的资讯;所述推荐池包括所述队列模块;S2.根据所述当前时段队列模块的目标队列长度、所述当前时段队列模块中资讯的来源个数阈值、所述当前时段队列模块中资讯的分类个数阈值以及所述当前时段待进入队列模块的资讯与当前时段队列模块中资讯的内容特征的相似度阈值,将所述当前时段待进入队列模块的资讯逐条送入到所述当前时段队列模块中并实时更新所述当前时段队列模块中的资讯;其中,所述当前时段队列模块的目标队列长度为所述当前时段队列模块中所能容纳的资讯的总数量;S3.通过队列长度调整算法定时更新所述当前时段队列模块的目标队列长度。2.根据权利要求1所述的方法,其特征在于,所述筛选条件包括:判定所述当前时段待筛选的全部资讯中不含有违禁和敏感词词表中词语;判定所述当前时段待筛选的全部资讯通过内容质量评分模型生成的内容质量评分超过第一预设阈值;判定所述当前时段待筛选的全部资讯通过发布者评分模型生成的发布者评分超过第二预设阈值。3.根据权利要求1所述的方法,其特征在于,在所述获取当前时段待筛选的全部资讯之前包括:构建所述违禁和敏感词词表;获取历史资讯,将所述历史资讯的属性信息通过分类模型训练得到所述内容质量评分模型;将所述历史资讯的发布者信息通过所述分类模型训练得到所述发布者评分模型;所述分类模型包括:朴素贝叶斯模型、逻辑回归模型、决策树模型。4.根据权利要求1所述的方法,其特征在于,所述将所述当前时段待进入队列模块的资讯逐条送入到所述当前时段队列模块中并实时更新所述当前时段队列模块中的资讯包括:将当前时段待进入队列模块的每条资讯均做如下处理:S21.判断所述当前时段队列模块的资讯数量是否为0,若是,执行S28;若否,执行S22;S22.将所述当前时段队列模块中资讯的分值清0,获取当前条资讯的来源,并判断所述当前时段队列模块中符合所述来源的资讯数量是否超过所述来源个数阈值,若是,执行S23;若否,执行S24;S23.将所述当前时段队列模块中符合所述来源的资讯的分值加1,获取所述当前条资讯的分类,判断所述当前时段队列模块中符合所述分类的资讯数量是否超过所述分类个数阈值,若是,执行S26;若否,执行S27;S24.获取所述当前条资讯的分类,判断所述当前时段队列模块中符合所述分类的资讯数量是否超过所述分类个数阈值,若是,执行S26;若否,执行S25;S25.判断所述当前时段队列模块中资讯的总数量是否超过所述当前时段队列模块的目标队列长度,若是,执行S27;若否,执行S28;S26.将所述当前时段队列模块中符合所述分类的资讯的分值加1;S27.获取所述当前条资讯的内容特征,判断所述当前时段队列模块中每条资讯的内容特征与所述当前条资讯的内容特征的相似度是否超过所述相似度阈值,若是,将所述当前
时段队列模块中对应的资讯的分值加1,并将所述当前时段队列模块中出现的第一个最大分值对应的资讯删除;S28.将所述当前条资讯送入到所述当前时段队列模块中。5.根据权利要求4所述的方法,其特征在于,所述将所述当前时段队列模块中出现的第一个最大分值对应的资讯删除包括:当判定所述当前时段队列模块中全部资讯的分值相等时,将所述当前时段队列模块中的资讯按进入所述当前时段队列模块中的顺序排列并将排列后的第一个资讯删除;当判定所述当前时段队列模块中有多个资讯的分值为最大分值时,将所述当前时段队列模块中多个最大分值的资讯按进入所述当前时段队列模块中的顺序排列并将排列后的第一个最大分值的资讯删除。6.根据权利要求1所述的方法,其特征在于,所述通过队列长度调整算法定时更新所述当前时段队列模块的目标队列长度包括:获取历史资讯,根据所述历史资讯计算得到下一时段待筛选的全部资讯数量以及历史各时段待筛选的全部资讯数量;将所述下一时段待筛选的全部资讯数量以及历史各时段待筛选的全部资讯数量通过所述队列长度调整算法计算得到下一时段队列模块的目标队列长度,其计算公式为:其中,L为下一时段队列模块的目标队列长度,{X}为历史各时段待筛...

【专利技术属性】
技术研发人员:任万鑫
申请(专利权)人:成都人人互娱科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1