一种新闻搜索方法及装置制造方法及图纸

技术编号:15799172 阅读:73 留言:0更新日期:2017-07-11 13:19
本申请提供了一种新闻搜索方法及装置,依据新闻的属性,进一步的,还可以依据新闻的质量,对与搜索关键词相关的新闻候选项进行打分排序后展示,所以,能够提高新闻搜索的准确性。

News searching method and device

The invention provides a method and device for news search, news attributes, further, it can be based on the quality of news, news and related search keywords candidate scoring sort after the show, so can improve the accuracy of news search.

【技术实现步骤摘要】
一种新闻搜索方法及装置
本申请涉及电子信息领域,尤其涉及一种新闻搜索方法及装置。
技术介绍
与传统的网页检索不同,新闻搜索目前还没有完整通用的算法和模型。目前,对于新闻的搜索,主要基于PageRank算法,该算法的基本思想是:页面的重要程度用PageRank值来衡量。PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。然而,基于PageRank算法的新闻搜索方法,仅依靠被引用的次数和与引用页面的重要程度筛选,而忽略了新闻的相关程度,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。
技术实现思路
本申请提供了一种新闻搜索方法及装置,目的在于解决如何提高新闻的搜索准确性的问题。为了实现上述目的,本申请提供了以下技术方案:一种新闻搜索方法,包括:依据搜索关键词,得到与所述搜索关键词相关的候选项;依据新闻的属性,确定所述候选项的属性分,并依据所述属性分对所述候选项排序,所述新闻的属性包括新闻的点击曝光率和新闻的实效周期;按照排序结果,展示搜索结果。可选的,所述新闻的属性还包括:新闻的媒体分数、被操作的次数以及被阅读的时长中的至少一项。可选的,所述依据新闻的属性,确定所述候选项的属性分包括:确定新闻经过平滑和时间衰减后的点击曝光率;确定新闻的时间衰减分数,所述时间衰减分数用于表示所述新闻的实效周期;获取所述新闻的媒体分数、被操作的次数以及被阅读的时长;依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数。可选的,所述确定新闻经过平滑和时间衰减后的点击曝光率包括:新闻经过平滑和时间衰减后的点击率为其中,d为衰减系数,start为该新闻生成的起始时间,t表示当前时刻,dt-start-1为衰减幅度,clickt为t时刻的点击次数;新闻经过平滑和时间衰减后的曝光率为其中,impt为t时刻的曝光次数。可选的,所述依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数包括:使用score=smoothScore*ruleScore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readTime计算所述候选项中的任意一项的分数,其中,smoothScore表示所述该新闻经过平滑和时间衰减后的点击曝光率,div为该新闻的时间衰减分数,readTime为平滑后的该新闻的被阅读时长,share为该新闻的分享数,comment该新闻的评论数,collection为该新闻的收藏数,praise为该新闻的点赞数。可选的,所述平滑后的该新闻的被阅读时长的确定方法包括:其中,allReadTime为该新闻被所有用户所阅读的总时长,allClick为该新闻所有的点击次数,pReadTime为该新闻虚拟的阅读时长,pClick为该新闻虚拟的点击次数。可选的,在所述按照排序结果,展示搜索结果之前,还包括:依据质量参数,确定所述排序结果中的各个候选项的质量分,所述质量参数包括新闻的长度、段落数、包括的图片以及标题的长度;将所述候选项中的任意一项的质量分与该项的属性分相乘,得到总分;依据所述候选项中每一项的总分,对所述候选项进行重排序,得到更新的排序结果。一种新闻的搜索装置,包括:候选项确定模块,用于依据搜索关键词,得到与所述搜索关键词相关的候选项;打分模块,用于依据新闻的属性,确定所述候选项的属性分,并依据所述属性分对所述候选项排序,所述新闻的属性包括新闻的点击曝光率和新闻的实效周期;展示模块,用于按照排序结果,展示搜索结果。可选的,所述新闻的属性还包括:新闻的媒体分数、被操作的次数以及被阅读的时长中的至少一项。可选的,所述打分模块用于依据新闻的属性,确定所述候选项的属性分包括:所述打分模块具体用于,确定新闻经过平滑和时间衰减后的点击曝光率;确定新闻的时间衰减分数,所述时间衰减分数用于表示所述新闻的实效周期;获取所述新闻的媒体分数、被操作的次数以及被阅读的时长;依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数。可选的,所述打分模块用于确定新闻经过平滑和时间衰减后的点击曝光率包括:所述打分模块具体用于,计算新闻经过平滑和时间衰减后的点击率为其中,d为衰减系数,start为该新闻生成的起始时间,t表示当前时刻,dt-start-1为衰减幅度,clickt为t时刻的点击次数;计算新闻经过平滑和时间衰减后的曝光率为其中,impt为t时刻的曝光次数。可选的,所述打分模块用于依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数包括:所述打分模块具体用于,使用score=smoothScore*ruleScore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readTime计算所述候选项中的任意一项的分数,其中,smoothScore表示所述该新闻经过平滑和时间衰减后的点击曝光率,div为该新闻的时间衰减分数,readTime为平滑后的该新闻的被阅读时长,share为该新闻的分享数,comment该新闻的评论数,collection为该新闻的收藏数,praise为该新闻的点赞数。可选的,所述打分模块还用于:按照确定所述平滑后的该新闻的被阅读时长,其中,allReadTime为该新闻被所有用户所阅读的总时长,allClick为该新闻所有的点击次数,pReadTime为该新闻虚拟的阅读时长,pClick为该新闻虚拟的点击次数。可选的,还包括:重排序模块,用于在所述展示模块按照排序结果,展示搜索结果之前,依据质量参数,确定所述排序结果中的各个候选项的质量分,所述质量参数包括新闻的长度、段落数、包括的图片以及标题的长度;将所述候选项中的任意一项的质量分与该项的属性分相乘,得到总分;依据所述候选项中每一项的总分,对所述候选项进行重排序,得到更新的排序结果。本申请所述的新闻搜索方法及装置,依据新闻的属性,对与搜索关键词相关的候选项进行打分排序后展示,因为考虑到了新闻的属性,所以,能够提高新闻搜索的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,本文档来自技高网...
一种新闻搜索方法及装置

【技术保护点】
一种新闻搜索方法,其特征在于,包括:依据搜索关键词,得到与所述搜索关键词相关的候选项;依据新闻的属性,确定所述候选项的属性分,并依据所述属性分对所述候选项排序,所述新闻的属性包括新闻的点击曝光率和新闻的实效周期;按照排序结果,展示搜索结果。

【技术特征摘要】
1.一种新闻搜索方法,其特征在于,包括:依据搜索关键词,得到与所述搜索关键词相关的候选项;依据新闻的属性,确定所述候选项的属性分,并依据所述属性分对所述候选项排序,所述新闻的属性包括新闻的点击曝光率和新闻的实效周期;按照排序结果,展示搜索结果。2.根据权利要求1所述的方法,其特征在于,所述新闻的属性还包括:新闻的媒体分数、被操作的次数以及被阅读的时长中的至少一项。3.根据权利要求2所述的方法,其特征在于,所述依据新闻的属性,确定所述候选项的属性分包括:确定新闻经过平滑和时间衰减后的点击曝光率;确定新闻的时间衰减分数,所述时间衰减分数用于表示所述新闻的实效周期;获取所述新闻的媒体分数、被操作的次数以及被阅读的时长;依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数。4.根据权利要求3所述的方法,其特征在于,所述确定新闻经过平滑和时间衰减后的点击曝光率包括:新闻经过平滑和时间衰减后的点击率为其中,d为衰减系数,start为该新闻生成的起始时间,t表示当前时刻,dt-start-1为衰减幅度,clickt为t时刻的点击次数;新闻经过平滑和时间衰减后的曝光率为其中,impt为t时刻的曝光次数。5.根据权利要求3或4所述的方法,其特征在于,所述依据所述新闻经过平滑和时间衰减后的点击曝光率、所述新闻的时间衰减分数、所述新闻的媒体分数、被操作的次数以及被阅读的时长,计算所述候选项的分数包括:使用score=smoothScore*ruleScore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readTime计算所述候选项中的任意一项的分数,其中,smoothScore表示所述该新闻经过平滑和时间衰减后的点击曝光率,ruleScore为人工规则分数,div为该新闻的时间衰减分数,readTime为平滑后的该新闻的被阅读时长,share为该新闻的分享数,comment该新闻的评论数,collection为该新闻的收藏数,praise为该新闻的点赞数。6.根据权利要求5所述的方法,其特征在于,所述平滑后的该新闻的被阅读时长的确定方法包括:其中,allReadTime为该新闻被所有用户所阅读的总时长,allClick为该新闻所有的点击次数,pReadTime为该新闻虚拟的阅读时长,pClick为该新闻虚拟的点击次数。7.根据权利要求1所述的方法,其特征在于,在所述按照排序结果,展示搜索结果之前,还包括:依据质量参数,确定所述排序结果中的各个候选项的质量分,所述质量参数包括新闻的长度、段落数、包括的图片以及标题的长度;将所述候选项中的任意一项的质量分与该项的属性分相乘,得到总分;依据所述候选项中每一项的总分,对所述候选项进行重排序,得到更新的排序结果。8.一种新闻的搜索装置,其特征在于,包括:候...

【专利技术属性】
技术研发人员:曹雪倩安倩
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1