一种相关文章的推荐处理方法和处理系统技术方案

技术编号:8593944 阅读:163 留言:0更新日期:2013-04-18 07:06
本发明专利技术公开了一种相关文章的推荐处理方法和系统。所述方法包括:A、根据给定文章的内容特征检索出候选相关文章;B、根据给定用户特征和每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。所述系统包括:特征检索模块,用于根据给定文章的内容特征检索出候选相关文章;相关性确定模块,用于根据所述每篇候选相关文章的内容特征和用户特征,确定所述每篇候选相关文章的相关性;推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章。利用本发明专利技术,可以提高相关文章推荐结果的准确度,减少用户为寻找目标文章而导致的人机交互次数,降低对机器侧资源的占用。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理技术,尤其涉及一种在互联网中相关文章的推荐处理方法和处理系统
技术介绍
目前,随着互联网技术的发展,网络逐渐成为人们获取信息的重要来源,特别是在互联网进入Web2. O时代后,用户既是网站内容的浏览者,也是网站内容的制造者。用户参与创造的内容被称为用户生成内容(UGC,User Generated Content),在Web2. O时代,由于UGC的大量涌现,网络信息量呈几何级快速增长。为了将信息迅速、有针对性地提供给感兴趣的用户,各种网站系统、互联网社区系统等都在用户阅读给定文章时,向用户推荐相关文章,以减少用户查找文章造成的人机交互次数,方便用户找到目标文章。目前互联网系统中相关文章的推荐处理技术主要有以下三种(I)人工整理的方式,即通过编辑人员阅读大量文章,人为确定将某些相关的文章确定有针对某一文章的推荐文章。这种推荐处理方式的缺点是人工成本太高,效率低下,难以处理每天大量的UGC内容。(2)固定推荐方式,即在一个网站系统或社区系统中预先选定一批推荐文章(比如每天点击率高的、置顶的、质量好的文章等),针对给定文章(例如用户当前阅读的文章),从所述推荐文章中随机选择一部分推荐给该网站系统或社区系统的所有读者。这种推荐处理方式的缺点是所有给定文章的推荐文章都是相同的,不能针对每篇给定文章推荐出相关的而且不同的内容,难以满足用户的个性化信息的获取需求,不方便用户从推荐结果中找到与给定文章相关性较高的目标文章。(3)动态推荐方式,即通过当前给定文章的关键词或者核心词,从待推荐文章数据库检索出相关文章,然后推荐给所述给定文章的读者,还可以根据文章发表时间、点击次数等调整推荐结果。这种推荐处理方式缺点是只是通过当前给定文章的核心词匹配检索相关文章,没有考虑相关文章的用户特征以及该用户特征与给定用户(例如所述给定文章的读者或作者)的用户相关性,导致不同的读者在同一时间得到的推荐结果没有区别,不能满足不同读者的个性化需求,不方便用户从推荐结果中找到与给定文章和给定用户相关性较高的目标文章。总之,现有的推荐相关文章的技术方案在面对当前互联网海量信息时,推荐结果的准确度不高,不方便用户从推荐结果中找到与给定文章(如当前阅读的文章)和给定用户(如给定文章的读者或作者)相关性较高的目标文章,用户为了查找与给定文章和给定用户相关性较高的目标文章,往往需要点击查看更多的页面进行人工搜索和查找,导致用户与互联网机器侧的人机交互次数增多,而每一次人机交互操作都会发出操作请求信息、触发计算过程并产生响应结果信息,从而会占用机器侧的大量资源,包括客户端资源、服务器资源、网络带宽资源等等。
技术实现思路
有鉴于此,本专利技术提供一种相关文章的推荐处理方法和处理系统,以提高相关文章推荐结果的准确度。本专利技术的技术方案是这样实现的一种相关文章的推荐处理方法,包括A、根据给定文章的内容特征检索出候选相关文章;B、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。—种相关文章的推荐处理系统,包括特征检索模块,用于根据给定文章的内容特征检索出候选相关文章;相关性确定模块,用于根据所述每篇候选相关文章的用户特征,确定所述每篇候选相关文章的用户相关性;推荐控制模块,用于针对所述给定文章,优先推荐所述相关性高的候选相关文章。与现有技术相比,本专利技术综合考虑了文章内容特征和用户特征,不但利用给定文章的内容特征检索相关文章,而且根据用户特征确定相关文章的用户相关性,优先推荐相关性高的候选相关文章,从而提高了相关文章推荐结果的准确度,方便用户从海量的互联网文章信息中找到与给定文章和给定用户相关性较高的目标文章。例如针对用户当前阅读的文章,其推荐的相关文章不但与该当前文章的内容相关,而且与当前用户(即读者)相关,从而具有较好的推荐效果。因此本专利技术能够满足互联网用户的个性化阅读需求,减少用户为寻找目标文章而导致的人机交互次数,降低对机器侧资源的占用。随着网络社区化程度越来越高,在大量UGC内容里面,重复、近似的信息很多,对不同用户来说,更加倾向于关注来源于与自己存在密切社会关系的UGC信息,利用本专利技术可以根据相关文章的用户特征确定与给定用户之间相关性,从而可以使用户可以方便地获取到与自己相关性高的UGC信息。附图说明图1为本专利技术所述相关文章的推荐处理方法的一种流程图;图2为本专利技术所述相关文章的推荐处理系统的一种实施例示意图;图3为本专利技术所述相关文章的推荐处理系统的又一种实施例示意图;图4为本专利技术所述相关文章的推荐处理系统的再一种实施例示意图;图5为本专利技术所述相关文章的推荐处理系统的再一种实施例示意图;图6为本专利技术所述相关文章的推荐处理系统的再一种实施例示意图。具体实施例方式下面结合附图及具体实施例对本专利技术再作进一步详细的说明。图1为本专利技术所述相关文章的推荐处理方法的一种流程图。参见图1,该流程包括步骤101、根据给定文章的内容特征检索出候选相关文章。步骤102、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性。步骤103、针对所述给定文章,优先推荐所述相关性分数高的候选相关文章。本专利技术中,所述相关性可以用相关性分数来表示,也可以用其他值来表示,例如用等级值表示。本文实施例中所述用户相关性以用户相关性分数表示,所述内容相关性以内容相关性分数表示。上述步骤101和102可以从已经存在的文章数据库和用户数据库中检索需要的候选相关文章的数据以及获取需要的用户特征数据。也可以自建和维护专用的文章数据库和用户数据库,从该专用的文章数据库中检索候选相关文章的数据,从该专用的用户数据库中获取需要的用户特征数据。所述建立和维护文章数据库的具体过程包括步骤al、建立文章数据库。步骤a2、从互联网中筛选出待推荐的文章,将待推荐文章的特征数据存储到所述文章数据库中。本步骤a2的具体实时中,可以从本网站系统甚至其他相关网站系统的所有文章中进行质量筛选,过滤掉质量较低的文章。之所以要进行筛选过滤处理,是因为UGC文章相对新闻文章具有很多特点例如数量多、用语规范程度相对较差、相互转载重复信息多、作弊和垃圾信息很多等。因此如果用UGC作为推荐文章,则需要对其进行有效过滤,选取质量高的文章。所述具体的文章筛选过滤方法例如可以包括(a21)根据文章标题可读性进行判别和筛选,即对文章标题的格式、语言规范化程度、语义信息量等进行打分,根据打分高低对文章进行筛选。(a22)根据文章内容可读性进行判别和筛选,即对文章内容的格式、语言规范化程度、语义信息量等进行打分,根据打分高低对文章进行筛选。(a23)对作弊垃圾类文章进行筛选,即筛选去掉包含广告推广、政治色情类等内容的文章。筛选出待推荐的文章后,将待推荐文章的特征数据存储到所述文章数据库中。所述文章特征数据包括文章质量分数、文章作者、文章类别、文章词向量空间、文章主题词等。本专利技术可以根据实际应用需要,设计多种数据存储格式,比如以文章类别建立索引、文章主题词建立文章索引,按文章ID建立数据索引等。另外,索引文章的排列次序可以按照文章的质量分数排序,这样可以在保证质量的前提下提高查询速度。步骤a3、根据互联网中文章数据的变化,更新和排重本文档来自技高网
...

【技术保护点】
一种相关文章的推荐处理方法,其特征在于,包括:A、根据给定文章的内容特征检索出候选相关文章;B、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。

【技术特征摘要】
1.一种相关文章的推荐处理方法,其特征在于,包括A、根据给定文章的内容特征检索出候选相关文章;B、根据每篇候选相关文章的用户特征,确定每篇候选相关文章的用户相关性;C、针对所述给定文章,优先推荐所述相关性高的候选相关文章。2.根据权利要求1所述的方法,其特征在于,所述步骤B进一步包括确定每篇候选相关文章与所述给定文章的内容相关性;所述步骤C中,进一步将每篇候选相关文章的所述内容相关性和用户相关性进行组合加权,得到综合相关性;针对所述给定文章,优先推荐所述综合相关性高的候选相关文章。3.根据权利要求1所述的方法,其特征在于,所述候选相关文章的用户相关性为用户属性相关性;或者为与给定用户的关系链相关性;或者为用户属性相关性和与给定用户的关系链相关性进行组合加权的分数。4.根据权利要求3所述的方法,其特征在于,当所述候选相关文章的用户相关性为用户属性相关性时,所述确定每篇候选相关文章的用户相关性的具体方法为预存用户属性对应的相关性评分标准,查询候选相关文章的作者属性,根据候选相关文章的作者属性和对应的相关性评分标准确定候选相关文章的用户属性相关性。5.根据权利要求3所述的方法,其特征在于,当所述候选相关文章的用户相关性为与给定用户的关系链相关性时,所述确定每篇候选相关文章的用户相关性的具体方法为预存关系链距离对应的评分标准,确定所述给定用户与候选相关文章作者的关系链距离,根据所述给定用户与候选相关文章作者的关系链距离和对应的评分标准确定候选相关文章与所述给定用户的关系链相关性。6.根据权利要求3或5所述的方法,其特征在于,所述给定用户为所述给定文章的阅读者,或者为所述给定文章的作者。7.根据权利要求2、3、4、或5所述的方法,其特征在于,当每篇候选相关文章的相关性包括多种相关性时;所述步骤C后进一步包括搜集所推荐的相关文章的点击反馈信息,根据所述点击反馈信息调整所述各相关性对应的权重因子的比重。8.根据权利要求1所述的方法,其特征在于,步骤C中,进一步包括根据应用场景对所述推荐文章的推荐结果信息进行选择展示。9.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立和维护文章数据库,步骤A中,从所述文章数据库中检索候选相关文章;所述建立和维护文章数据库的具体过程包括al、建立文章数据库;a2、从互联网中筛选出待推荐的文章,将待推荐文章的特征数据存储到所述文章数据库中;a3、根据互联网中文章数据的变化,更新和排重所述文章数据库中的待推荐文章的特征数据。10.根据权利要求9所述的方法,其特征在于,步骤a2中所述筛选待推荐文章的方法包括以下至少一种方法根据文章标题可读性进行筛选;根据文章内容可读性进行筛选; 对作弊垃圾类文章进行筛选。11.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立和维护用户数据库,步骤B中,进一步包括从所述用户数据库获取所述用户特征; 所述建立和维护用户数据库的具体过程包括 bl、建立用户数...

【专利技术属性】
技术研发人员:刘建罗侃杨志峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1