热门内容搜索方法和系统技术方案

技术编号:16365529 阅读:47 留言:0更新日期:2017-10-10 21:34
本发明专利技术涉及一种热门内容搜索方法和系统,其中,热门内容搜索方法可以包括以下步骤:获取检索关键词;根据检索关键词,在预设索引库中进行检索,得到各文本数据;根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。本发明专利技术可以体现时间段内的热度情况和内容热度值的时效性,并有效提高获取热门内容信息的准确性。

Hot content search method and system

The invention relates to a popular content search method and system, the popular content search method comprises the following steps: obtaining a search keyword; according to search keywords, search in the default index database, get the text data according to the preset time; thermal fluctuation degree algorithm, each dimension parameters corresponding to the text by heat the value of heat will increase; heat value and preset attenuation value as the product dimension values of the parameters, and the parameters of the heat value of the dimension of the sum of the sum, and get the text content of the data according to the content of heat value; the heat value, and the ranking of text data, the text data sorted the text; the data sorted as display corresponding to the external application or send according to popular content retrieval keyword search out. The invention can reflect the degree of heat in the time period and the timeliness of the content heat value, and effectively improve the accuracy of obtaining the hot content information.

【技术实现步骤摘要】
热门内容搜索方法和系统
本专利技术涉及数据检索
,特别是涉及一种热门内容搜索方法和系统。
技术介绍
在数据检索服务中,首先采集内容信息,然后根据采集到的内容信息数据建立索引。外部应用在使用这些内容信息数据的时候,通过索引进行全文检索,默认根据信息的发布时间、评论数、点赞数等维度进行排序,得到关注度高的内容信息。在实现过程中,专利技术人发现传统技术中至少存在如下问题:采用传统内容检索方法,由于评论数、点赞数等会随着时间的增长而变大,得出的内容热度值会不断地增大;但内容热度值往往是有时效性的,会随着时间的变化产生波动,传统热门内容搜索方法不能体现这种时效性,无法得到准确的内容热度值,从而得到热门内容信息的准确率低。
技术实现思路
基于此,有必要针对传统热门内容搜索方法得到热门内容信息的准确率低的问题,提供一种热门内容搜索方法和系统。为了实现上述目的,一方面,本专利技术实施例提供了一种热门内容搜索方法,包括以下步骤:获取检索关键词;根据检索关键词,在预设索引库中进行检索,得到各文本数据;根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。另一方面,本专利技术实施例还提供了一种热门内容搜索系统,包括:全文检索单元,用于获取检索关键词,并根据检索关键词,在预设索引库中进行检索,得到各文本数据;内容热度值获取单元,用于根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;排序单元,用于根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;反馈单元,用于将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。本专利技术具有如下优点和有益效果:本专利技术热门内容搜索方法和系统,根据预设的时间波动热度算法,获取各文本数据内容热度值;其中,例如通过时间热度衰减值乘以热度增幅值得出热度值的步骤,可以大大降低随着时间增长对内容热度定义的偏差,得出的内容热度值更准确;然后根据内容热度值,对各文本数据进行排序,得到能够准确体现内容热度的排序结果;以上步骤使得本专利技术可以体现时间段内的热度情况和内容热度值的时效性;同时根据时间段内的热度增幅值进行计算,将各维度参数的热度值之和作为内容热度值,能够有效提高获取热门内容信息的准确性。附图说明图1为本专利技术热门内容搜索方法实施例1的流程示意图;图2为本专利技术热门内容搜索方法实施例2的流程示意图;图3为本专利技术热门内容搜索系统实施例1的结构示意图;图4为本专利技术热门内容搜索系统实施例2的结构示意图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。附图中给出了本专利技术的首选实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。本专利技术热门内容搜索方法和系统应用场景说明:在传统内容检索方法中,关注度是根据发布时间、评论数量、点赞数等维度数据进行求和运算后得出的值,值越高表示关注度越高。而索引是用来提供全文检索用的,关注度是对检索的结果排序的参照依据。传统热门内容搜索方法在进行检索时,根据检索关键词获取各文本数据,然后结合关注度确定最终的排序结果。但传统方法根据维度参数(即维度数据)的值进行直接运算,易出现不同的内容的维度数据具有较大的偏差的情况,最终会导致因为内容热度值本身的大小造成排序结果的不准确。本专利技术热门内容搜索方法和系统,具体可以适用于针对性的网站,例如各行业网站;优选的,本专利技术热门内容搜索方法和系统适用于智能语义知识图谱这类内容云系列软件项目;智能语义知识图谱作为媒体运营的中央厨房,担任着媒体数据收集、清洗、入库以及给内容编辑提供检索服务的重要角色,即在智能语义平台根据预先设定的爬取规则从合作媒体客户网站爬取相关媒体数据存入数据库,沉淀媒体数据,为媒体内容编辑提供数据搜索服务。本专利技术可以从合作媒体客户网站爬取相关数据,最后搜索到的热门内容更贴近某一类行业的行业热度,提高搜索结果的准确性。本专利技术热门内容搜索方法实施例1:为了解决传统热门内容搜索方法得到热门内容信息的准确率低的问题,本专利技术提供了一种热门内容搜索方法实施例1,图1为本专利技术热门内容搜索方法实施例1的流程示意图;如图1所示,可以包括以下步骤:步骤S110:获取检索关键词;根据检索关键词,在预设索引库中进行检索,得到各文本数据;步骤S120:根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;步骤S130:根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;步骤S140:将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。具体而言,本专利技术通过检索获取各文本数据(优选的,可以采取全文检索的方式),对文本数据根据预设的时间波动热度算法,通过衰减值乘以热度增幅算出各维度参数的热度值,并根据热度值得到文本数据的内容热度值;在用户输入关键字检索时,首先根据关键字进行全文检索,然后对各文本数据按照内容热度值进行排序,再把排序后的结果返回给用户。其中,维度参数为根据用户行为数据得到的衡量内容热度的参数;优选的,维度参数指的是能够体现文本数据的用户关注度的维度数据(例如喜欢、点赞数、评论数以及转载数等记载用户行为的数据);衰减值可以是根据时间段内的不同,随着时间的递增而逐渐衰减的数值常量。热度增幅值可以是根据时间范围内某一维度数据(即某一维度参数)所增加的值。而内容热度值是体现内容随着时间的变化而体现出来的热门程度的值,值越大代表越热门。优选的,热度增幅值可以指根据计算文本数据在一个时间段内维度参数(例如点赞数、阅读数、评论数)的增幅值。衰减值可以是根据时间段来灵活划分得到的,优选的,三天时间的衰减值是0.8,一周时间的衰减值是0.5,半个月时间的衰减值是0.3,衰减值越小代表衰减的程度越大。本专利技术通过预设索引库进行全文检索,然后对得到的各文本数据按照内容热度值进行排序,这样的排序结果可以准确的体现文本数据的热度情况和内容热度值的时效性,从而有效提高获取热门内容信息的准确性。在一个具体的实施例中,根据预设的时间波动热度算法,基于以下公式得到文本数据的各维度参数对应的热度增幅值:热度增幅值=维度参数当前时间的参数值-维度参数上一个时间段的参数值。具体而言,通过本专利技术中预设的时间波动热度本文档来自技高网
...
热门内容搜索方法和系统

【技术保护点】
一种热门内容搜索方法,其特征在于,包括以下步骤:获取检索关键词;根据所述检索关键词,在预设索引库中进行检索,得到各文本数据;根据预设的时间波动热度算法,得到所述文本数据的各维度参数对应的热度增幅值;将所述热度增幅值和预设衰减值的乘积作为所述维度参数的热度值,并对各所述维度参数的热度值进行相加求和,得到所述文本数据的内容热度值;根据所述内容热度值,对各所述文本数据进行排序,得到排序后的各文本数据;将所述排序后的各文本数据作为根据所述检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。

【技术特征摘要】
1.一种热门内容搜索方法,其特征在于,包括以下步骤:获取检索关键词;根据所述检索关键词,在预设索引库中进行检索,得到各文本数据;根据预设的时间波动热度算法,得到所述文本数据的各维度参数对应的热度增幅值;将所述热度增幅值和预设衰减值的乘积作为所述维度参数的热度值,并对各所述维度参数的热度值进行相加求和,得到所述文本数据的内容热度值;根据所述内容热度值,对各所述文本数据进行排序,得到排序后的各文本数据;将所述排序后的各文本数据作为根据所述检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。2.根据权利要求1所述的热门内容搜索方法,其特征在于,根据预设的时间波动热度算法,基于以下公式得到所述文本数据的各维度参数对应的热度增幅值:所述热度增幅值=所述维度参数当前时间的参数值-所述维度参数上一个时间段的参数值。3.根据权利要求1所述的热门内容搜索方法,其特征在于,所述维度参数包括点赞参数、评论参数和阅读参数;将各所述维度参数的热度值进行相加求和,得到所述文本数据的内容热度值的步骤包括:获取所述热度值与所述维度参数对应的热度权重的乘积,对各所述乘积进行相加求和,得到所述内容热度值。4.根据权利要求1至3任意一项所述的热门内容搜索方法,其特征在于,根据所述内容热度值,对各所述文本数据进行排序的步骤之前还包括:根据所述检索关键词与所述预设索引库中词句的匹配程度,得到各所述文本数据的匹配值;对各所述文本数据进行排序,得到排序后的各文本数据的步骤包括:对所述内容热度值和所述匹配值进行相加求和,得到最终分值;根据所述最终分值由大到小的顺序,对各所述文本数据进行排序,得到所述排序后的各文本数据。5.根据权利要求4所述的热门内容搜索方法,其特征在于,在获取检索关键词的步骤之前还包括步骤:根据预设的爬取规则,爬取网站的内容信息,获取所述内容信息的文本数据;对所述文本数据进行分词,得到分词后的词语和句子;根据所述分词后的词语和句子,建立倒排索引,并根据所述倒排索引,构建所述预设索引库。6.一种热门内容搜索系统,其特征...

【专利技术属性】
技术研发人员:覃文森张伟力陈鹏
申请(专利权)人:广东万丈金数信息技术股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1