【技术实现步骤摘要】
一种资讯推荐池构建方法、系统及计算机存储介质
[0001]本专利技术涉及人工智能
,具体而言,涉及一种资讯推荐池构建方法、系统及计算机存储介质。
技术介绍
[0002]随着互联网的发展,资讯的发布越发便捷,资讯的数量也呈现爆炸式增长。推荐系统通过用户的属性或行为,在海量资讯中找到用户可能感兴趣的内容,解决了信息过载问题。推荐系统通过构建推荐池,实现了资讯发布者和用户之间的纽带,资讯的发布者将内容发布后,推荐系统将该资讯存入推荐池中,当用户需要阅读时,推荐系统根据用户的属性或偏好,在推荐池中找到用户可能感兴趣的内容推荐给用户。推荐池质量的提升,不仅可以提高产品的推荐质量,更可以提升用户满意度。
[0003]现有的推荐池构建技术包括两种,一种是根据时间范围构建,将发布时间符合指定时间范围的资讯存入推荐池中;一种是根据资讯质量构建,将满足一定质量的资讯存入推荐池中。但是现有的技术有以下缺陷:一是由于资讯内容千差万别,很难用简单的规则筛选出高质量结果,导致进入推荐池的资讯质量难以保证,如果人工筛选高质量结果,又会使资讯上线不及时导致推荐内容时效性差;二是由于资讯发布者有其活跃周期,资讯的发布数量在各时段上并不均匀,导致推荐池内资讯数量波动较大,在发布数量较高的时段推荐池内资讯数量过多,导致推荐计算时间延长,进而导致推荐系统响应超时,在发布量较少的时段推荐池内资讯数量过少,导致推荐系统难以匹配到符合用户兴趣的内容,进而导致推荐质量下降;三是由于热点的资讯数量较多,导致推荐池内会存在大量相似的内容。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种资讯推荐池构建方法,其特征在于,包括:S1.获取当前时段待筛选的全部资讯,将所述当前时段待筛选的全部资讯通过筛选条件进行筛选,得到当前时段待进入队列模块的资讯;所述推荐池包括所述队列模块;S2.根据所述当前时段队列模块的目标队列长度、所述当前时段队列模块中资讯的来源个数阈值、所述当前时段队列模块中资讯的分类个数阈值以及所述当前时段待进入队列模块的资讯与当前时段队列模块中资讯的内容特征的相似度阈值,将所述当前时段待进入队列模块的资讯逐条送入到所述当前时段队列模块中并实时更新所述当前时段队列模块中的资讯;其中,所述当前时段队列模块的目标队列长度为所述当前时段队列模块中所能容纳的资讯的总数量;S3.通过队列长度调整算法定时更新所述当前时段队列模块的目标队列长度。2.根据权利要求1所述的方法,其特征在于,所述筛选条件包括:判定所述当前时段待筛选的全部资讯中不含有违禁和敏感词词表中词语;判定所述当前时段待筛选的全部资讯通过内容质量评分模型生成的内容质量评分超过第一预设阈值;判定所述当前时段待筛选的全部资讯通过发布者评分模型生成的发布者评分超过第二预设阈值。3.根据权利要求1所述的方法,其特征在于,在所述获取当前时段待筛选的全部资讯之前包括:构建所述违禁和敏感词词表;获取历史资讯,将所述历史资讯的属性信息通过分类模型训练得到所述内容质量评分模型;将所述历史资讯的发布者信息通过所述分类模型训练得到所述发布者评分模型;所述分类模型包括:朴素贝叶斯模型、逻辑回归模型、决策树模型。4.根据权利要求1所述的方法,其特征在于,所述将所述当前时段待进入队列模块的资讯逐条送入到所述当前时段队列模块中并实时更新所述当前时段队列模块中的资讯包括:将当前时段待进入队列模块的每条资讯均做如下处理:S21.判断所述当前时段队列模块的资讯数量是否为0,若是,执行S28;若否,执行S22;S22.将所述当前时段队列模块中资讯的分值清0,获取当前条资讯的来源,并判断所述当前时段队列模块中符合所述来源的资讯数量是否超过所述来源个数阈值,若是,执行S23;若否,执行S24;S23.将所述当前时段队列模块中符合所述来源的资讯的分值加1,获取所述当前条资讯的分类,判断所述当前时段队列模块中符合所述分类的资讯数量是否超过所述分类个数阈值,若是,执行S26;若否,执行S27;S24.获取所述当前条资讯的分类,判断所述当前时段队列模块中符合所述分类的资讯数量是否超过所述分类个数阈值,若是,执行S26;若否,执行S25;S25.判断所述当前时段队列模块中资讯的总数量是否超过所述当前时段队列模块的目标队列长度,若是,执行S27;若否,执行S28;S26.将所述当前时段队列模块中符合所述分类的资讯的分值加1;S27.获取所述当前条资讯的内容特征,判断所述当前时段队列模块中每条资讯的内容特征与所述当前条资讯的内容特征的相似度是否超过所述相似度阈值,若是,将所述当前
时段队列模块中对应的资讯的分值加1,并将所述当前时段队列模块中出现的第一个最大分值对应的资讯删除;S28.将所述当前条资讯送入到所述当前时段队列模块中。5.根据权利要求4所述的方法,其特征在于,所述将所述当前时段队列模块中出现的第一个最大分值对应的资讯删除包括:当判定所述当前时段队列模块中全部资讯的分值相等时,将所述当前时段队列模块中的资讯按进入所述当前时段队列模块中的顺序排列并将排列后的第一个资讯删除;当判定所述当前时段队列模块中有多个资讯的分值为最大分值时,将所述当前时段队列模块中多个最大分值的资讯按进入所述当前时段队列模块中的顺序排列并将排列后的第一个最大分值的资讯删除。6.根据权利要求1所述的方法,其特征在于,所述通过队列长度调整算法定时更新所述当前时段队列模块的目标队列长度包括:获取历史资讯,根据所述历史资讯计算得到下一时段待筛选的全部资讯数量以及历史各时段待筛选的全部资讯数量;将所述下一时段待筛选的全部资讯数量以及历史各时段待筛选的全部资讯数量通过所述队列长度调整算法计算得到下一时段队列模块的目标队列长度,其计算公式为:其中,L为下一时段队列模块的目标队列长度,{X}为历史各时段待筛...
【专利技术属性】
技术研发人员:任万鑫,
申请(专利权)人:成都人人互娱科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。