文章聚合方法及装置制造方法及图纸

技术编号:17388599 阅读:32 留言:0更新日期:2018-03-04 13:47
本发明专利技术提出一种文章聚合方法及装置,其中方法包括:获取搜索日志;根据搜索日志中搜索词的热度信息,获取搜索词中的热点兴趣点;获取满足预设条件的多条新闻数据;根据热点兴趣点对新闻数据进行标注,确定新闻数据中所包括的热点兴趣点以及热点兴趣点的评估分数;针对各个热点兴趣点,获取包括热点兴趣点,且包括的热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据至少一条新闻数据,生成与热点兴趣点对应的热点新闻聚合文章,从而能够获取到全面的热点兴趣点,且针对每个热点兴趣点,能够根据与热点兴趣点相关性很高的热点新闻生成热点新闻聚合文章,效率高且准确率高,且不需要人工参与,降低了文章聚合成本。

Method and device of article aggregation

The invention provides a method for the polymerization method and device, wherein the method comprises the following steps: acquiring search log; according to the search term heat information search log, get the search words in the hot points of interest; many news data access to meet the preset conditions; according to the hot point of interest for news data annotation, determine the data including news the hot points of interest and hot points of interest scores; for each of the hot points of interest, including getting hot points of interest, including the hot points of interest and assessment scores meet the preset threshold score of at least one news data, according to at least one news, hot news and hot points of interest corresponding polymerization articles thus, they can obtain comprehensive hot points of interest, and for each of the hot points of interest, according to the hot point of interest and a high correlation between the heat Point news generation hot news aggregator articles, high efficiency and high accuracy, and do not need manual participation, reduce the cost of the article polymerization.

【技术实现步骤摘要】
文章聚合方法及装置
本专利技术涉及互联网
,尤其涉及一种文章聚合方法及装置。
技术介绍
目前,互联网上的信息呈爆发式的增长,围绕互联网数据展开的趋势性应用和产品正不断受到关注,例如热点新闻聚合文章。现有技术中,生成热点新闻聚合文章时,是由编辑员从海量的新闻数据中挑选出热点新闻,获取热点新闻中的摘要信息,编辑得到热点新闻聚合文章,费时费力,且得到的热点新闻聚合文章覆盖的热点兴趣点不全面,效率低且准确率低。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种文章聚合方法,用于解决现有技术中热点新闻聚合文章生成效率低且准确率低的问题。本专利技术的第二个目的在于提出一种文章聚合装置。本专利技术的第三个目的在于提出另一种文章聚合装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种文章聚合方法,包括:获取搜索日志;所述搜索日志中包括:多个搜索词以及所述搜索词的热度信息;根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点;获取满足预设条件的多条新闻数据;根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数;针对各个热点兴趣点,获取包括所述热点兴趣点,且包括的所述热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章。进一步的,所述根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点,包括:将多个搜索词以及所述搜索词的热度信息,输入预设的热度模型,获取所述搜索词中的热点搜索词;根据所述热点搜索词,查询预设的实体词典,判断所述热点搜索词中是否包括实体;将包括实体的热点搜索词确定为候选兴趣点;获取所述候选兴趣点在新闻数据样本中的命中率,根据所述命中率确定所述候选兴趣点中的热点兴趣点。进一步的,所述获取所述候选兴趣点在新闻数据样本中的命中率,根据所述命中率确定所述候选兴趣点中的热点兴趣点,包括:获取新闻数据样本;根据所述候选兴趣点对所述新闻数据样本中的多条新闻数据进行标注,获取包括所述候选兴趣点的新闻数据条数;根据包括所述候选兴趣点的新闻数据条数以及所述新闻数据样本的总条数,计算所述候选兴趣点的命中率;将对应的命中率大于预设概率阈值的候选兴趣点,确定为热点兴趣点。进一步的,所述获取满足预设条件的多条新闻数据,包括:获取新闻数据库;将所述新闻数据库中的新闻数据,输入预设的低质模型,获取所述新闻数据的分类;获取对应的分类满足预设条件的多条新闻数据。进一步的,所述根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数,包括:针对各条新闻数据,对所述新闻数据进行标注,获取所述新闻数据中所包括的热点兴趣点;获取所述热点兴趣点在所述新闻数据中的出现次数;根据所述热点兴趣点在所述新闻数据中的出现次数,计算所述热点兴趣点的评估分数。进一步的,所述根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章,包括:对所述至少一条新闻数据进行摘要生成,获取所述至少一条新闻数据对应的摘要;根据所述至少一条新闻数据对应的摘要以及文章模板,生成与所述热点兴趣点对应的热点新闻聚合文章。本专利技术实施例的文章聚合方法,通过获取搜索日志;搜索日志中包括:多个搜索词以及搜索词的热度信息;根据搜索词的热度信息,获取搜索词中的热点兴趣点;获取满足预设条件的多条新闻数据;根据热点兴趣点对新闻数据进行标注,确定新闻数据中所包括的热点兴趣点以及热点兴趣点的评估分数;针对各个热点兴趣点,获取包括热点兴趣点,且包括的热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据至少一条新闻数据,生成与热点兴趣点对应的热点新闻聚合文章,从而能够获取到全面的热点兴趣点,且针对每个热点兴趣点,能够根据与热点兴趣点相关性很高的热点新闻生成热点新闻聚合文章,效率高且准确率高,且不需要人工参与,降低了文章聚合成本。为达上述目的,本专利技术第二方面实施例提出了一种文章聚合装置,包括:获取模块,用于获取搜索日志;所述搜索日志中包括:多个搜索词以及所述搜索词的热度信息;所述获取模块,还用于根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点;所述获取模块,还用于获取满足预设条件的多条新闻数据;标注模块,用于根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数;生成模块,用于针对各个热点兴趣点,获取包括所述热点兴趣点,且包括的所述热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章。进一步的,所述获取模块包括:输入单元,用于将多个搜索词以及所述搜索词的热度信息,输入预设的热度模型,获取所述搜索词中的热点搜索词;查询单元,用于根据所述热点搜索词,查询预设的实体词典,判断所述热点搜索词中是否包括实体;将包括实体的热点搜索词确定为候选兴趣点;确定单元,用于获取所述候选兴趣点在新闻数据样本中的命中率,根据所述命中率确定所述候选兴趣点中的热点兴趣点。进一步的,所述确定单元具体用于,获取新闻数据样本;根据所述候选兴趣点对所述新闻数据样本中的多条新闻数据进行标注,获取包括所述候选兴趣点的新闻数据条数;根据包括所述候选兴趣点的新闻数据条数以及所述新闻数据样本的总条数,计算所述候选兴趣点的命中率;将对应的命中率大于预设概率阈值的候选兴趣点,确定为热点兴趣点。进一步的,所述获取模块具体用于,获取新闻数据库;将所述新闻数据库中的新闻数据,输入预设的低质模型,获取所述新闻数据的分类;获取对应的分类满足预设条件的多条新闻数据。进一步的,所述标注模块具体用于,针对各条新闻数据,对所述新闻数据进行标注,获取所述新闻数据中所包括的热点兴趣点;获取所述热点兴趣点在所述新闻数据中的出现次数;根据所述热点兴趣点在所述新闻数据中的出现次数,计算所述热点兴趣点的评估分数。进一步的,所述生成模块具体用于,对所述至少一条新闻数据进行摘要生成,获取所述至少一条新闻数据对应的摘要;根据所述至少一条新闻数据对应的摘要以及文章模板,生成与所述热点兴趣点对应的热点新闻聚合文章。本专利技术实施例的文章聚合装置,通过获取搜索日志;搜索日志中包括:多个搜索词以及搜索词的热度信息;根据搜索词的热度信息,获取搜索词中的热点兴趣点;获取满足预设条件的多条新闻数据;根据热点兴趣点对新闻数据进行标注,确定新闻数据中所包括的热点兴趣点以及热点兴趣点的评估分数;针对各个热点兴趣点,获取包括热点兴趣点,且包括的热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据至少一条新闻数据,生成与热点兴趣点对应的热点新闻聚合文章,从而能够获取到全面的热点兴趣点,且针对每个热点兴趣点,能够根据与热点兴趣点相关性很高的热点新闻生成热点新闻聚合文章,效率高且准确率高,且不需要人工参与,降低了文章聚合成本。为达上述目的,本专利技术第三方面实施例提出了另一种文章聚合装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的本文档来自技高网...
文章聚合方法及装置

【技术保护点】
一种文章聚合方法,其特征在于,包括:获取搜索日志;所述搜索日志中包括:多个搜索词以及所述搜索词的热度信息;根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点;获取满足预设条件的多条新闻数据;根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数;针对各个热点兴趣点,获取包括所述热点兴趣点,且包括的所述热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章。

【技术特征摘要】
1.一种文章聚合方法,其特征在于,包括:获取搜索日志;所述搜索日志中包括:多个搜索词以及所述搜索词的热度信息;根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点;获取满足预设条件的多条新闻数据;根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数;针对各个热点兴趣点,获取包括所述热点兴趣点,且包括的所述热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章。2.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点,包括:将多个搜索词以及所述搜索词的热度信息,输入预设的热度模型,获取所述搜索词中的热点搜索词;根据所述热点搜索词,查询预设的实体词典,判断所述热点搜索词中是否包括实体;将包括实体的热点搜索词确定为候选兴趣点;获取所述候选兴趣点在新闻数据样本中的命中率,根据所述命中率确定所述候选兴趣点中的热点兴趣点。3.根据权利要求2所述的方法,其特征在于,所述获取所述候选兴趣点在新闻数据样本中的命中率,根据所述命中率确定所述候选兴趣点中的热点兴趣点,包括:获取新闻数据样本;根据所述候选兴趣点对所述新闻数据样本中的多条新闻数据进行标注,获取包括所述候选兴趣点的新闻数据条数;根据包括所述候选兴趣点的新闻数据条数以及所述新闻数据样本的总条数,计算所述候选兴趣点的命中率;将对应的命中率大于预设概率阈值的候选兴趣点,确定为热点兴趣点。4.根据权利要求1所述的方法,其特征在于,所述获取满足预设条件的多条新闻数据,包括:获取新闻数据库;将所述新闻数据库中的新闻数据,输入预设的低质模型,获取所述新闻数据的分类;获取对应的分类满足预设条件的多条新闻数据。5.根据权利要求1所述的方法,其特征在于,所述根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数,包括:针对各条新闻数据,对所述新闻数据进行标注,获取所述新闻数据中所包括的热点兴趣点;获取所述热点兴趣点在所述新闻数据中的出现次数;根据所述热点兴趣点在所述新闻数据中的出现次数,计算所述热点兴趣点的评估分数。6.根据权利要求1所述的方法,其特征在于,所述根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章,包括:对所述至少一条新闻数据进行摘要生成,获取所述至少一条新闻数据对应的摘要;根据所述至少一条新闻数据对应的摘要以及文章模板,生成与所述热点兴趣点对应的热点新闻聚合文章。7.一种文章聚合装置,其特征在于,包括:获取模块,用于获取搜索日志;所述搜索日志中包括:多个搜索词以及所述搜索词的热度信息;所述获取模块,还用于根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点;所述获取模块,还用于获取满足预设条件的多条新闻数据;标注模块,用于根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述...

【专利技术属性】
技术研发人员:蒋帅陈思姣罗雨刁世亮
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1