一种新闻内容全文检索引擎的构建方法及装置制造方法及图纸

技术编号:19425112 阅读:78 留言:0更新日期:2018-11-14 10:36
本发明专利技术涉及一种新闻内容全文检索引擎的构建方法及装置,该方法步骤如下:获取带有实时访问信息的实时网站日志;获取带有新闻热度评论信息的新闻网站的数据;对所述实时网站日志和所述新闻网站数据分类;对分类后的所述新闻网站数据进行处理、索引并存储;获取新闻网站数据中国的新闻元信息并存储;获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本发明专利技术在查询性能、索引空间和构建性能方面实现了合理的平衡;考虑到统计数据随时间变化的特性,动态更新索引结果;提高了系统的健壮性;提高统计数据与文本数据的复合查询性能。

【技术实现步骤摘要】
一种新闻内容全文检索引擎的构建方法及装置
本专利技术涉及一种新闻内容全文检索引擎的构建方法及装置,尤其涉及一种基于统计指标增量更新的新闻内容全文检索引擎的构建方法,属于数据处理

技术介绍
传统的新闻内容全文检索引擎仅仅支持对自由文本的索引,而数据统计分析通常采用数据库来进行检索,当需要同时获取新闻内容检索结果和基于新闻的统计数据时,只能将两种检索分开进行操作,一方面无法保证索引数据和统计数据的局部性,检索统计性能无法保证,既费时费力,同时依赖外部数据库又增加了系统的耦合度。
技术实现思路
本专利技术的目的在于提供一种新闻内容全文检索引擎的构建方法及装置,适合于使用在数据统计和内容分析混合型的数据管理引擎中,以提高统计数据与文本数据的复合查询性能。一种新闻内容全文检索引擎的构建方法,包括:S1、获取带有实时访问信息的实时网站日志;S2、获取带有新闻热度评论信息的新闻网站的数据;S3、对所述实时网站日志和所述新闻网站数据分类;S4、对分类后的所述新闻网站数据进行处理、索引并存储;S5、获取新闻网站数据中国的新闻元信息并存储;S6、获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。其中,对分类后的所述新闻网站数据进行索引包括:S41、按新闻内容的语言种类选择不同的分词器;S42、根据所选择的分词器对目标新闻内容进行分词处理,得到分词列表;S43、使用停用词词典,删除所述分词列表中的停用词,得到过滤后的分词列表;S44、针对过滤后的分词列表,生成反向索引,存入分布式的索引库中。其中,所述生成反向索引是按预定时间划分分区,将新闻网站数据的反向索引则会存储到逻辑分区中。其中,所述按预定时间作为分区是按月划分的。其中,所述获取新闻网站数据中的热度信息是每天统计一次。其中,所述热度信息包括:稿件ID、访问时间、页面浏览量和独立访客数中地至少一种。其中,元信息包括:新闻稿件的发稿日期、发稿作者、新闻的情感信息、相关度信息和分类信息中的至少一种。其中,所述对新闻网站数据中的热度信息统计包括:S61、根据关键词检索到相关的稿件;S62、根据确定的查询时间区间;S63、对时间区间内的访问量信息进行聚合统计。进一步的,本专利技术提供一种新闻内容全文检索方法,包括:D1、获取检索条件,指定查询时间区间;D2、确定待检索的索引的分区;D3、对输入的关键词表达式进行解析,生成检索引擎需要的问题后在对应的分区进行检索;D4、获取到检索的命中结果,找出新闻稿件的元信息;D5、找到新闻稿件在指定时间区间范围内的热度信息进行聚合统计后输出。进一步的,本专利技术提供一种新闻内容全文检索装置,包括:日志获取单元,用于获取带有实时访问信息的实时网站日志;数据获取单元,用于获取带有新闻热度评论信息的新闻网站的数据;分类单元,用于对所述实时网站日志和所述新闻网站数据分类;索引单元,用于对分类后的所述新闻网站数据进行处理、索引并存储;新闻元信息获取单元,用于获取新闻网站数据中国的新闻元信息并存储;新闻热度信息处理单元,用于获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本专利技术一种新闻内容全文检索引擎的构建方法、检索方法及装置,其优点及功效在于:1、本专利技术在查询性能、索引空间和构建性能方面实现了合理的平衡,与常规则的全文检索引擎相比检索性能相当,对存储资源占用的增量很小。2、采用将统计数据与全文检索数据相结合的方式,构建新的索引,同时考虑到统计数据随时间变化的特性,动态更新索引结果,方便检索者一次性获取内容结果和统计结果。3、同时结合新闻稿件内容的时间特性,对索引按新闻稿件的发稿时间这个元数据特性进行逻辑分区存储,一方面使得索引数据能更适合进行分布式存储,另一方面是的对索引数据的管理更加容易,例如,当一个时间区间的索引数据如果需要进行重新索引,则只需要从外部源重新获取这部分数据进行索引更新,不影响对其他索引分区的检索统计,提高了系统的健壮性。4、本专利技术适合于使用在数据统计和内容分析混合型的数据管理引擎中,提高统计数据与文本数据的复合查询性能。附图说明图1为本专利技术实施例中新闻内容全文检索引擎的构建方法流程示意图。图2为本专利技术实施例中对分类后的新闻网站数据进行索引方法流程示意图。图3为本专利技术实施例中对新闻网站数据中的热度信息统计流程示意图。图4为本专利技术实施例中一种新闻内容全文检索方法流程示意图。图5为本专利技术实施例中一种新闻内容全文检索装置结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种新闻内容全文检索引擎的构建方法,该方法包括:S1、获取带有实时访问信息的实时网站日志;S2、获取带有新闻热度评论信息的新闻网站的数据;S3、对所述实时网站日志和所述新闻网站数据分类;S4、对分类后的所述新闻网站数据进行处理、索引并存储;S5、获取新闻网站数据中国的新闻元信息并存储;S6、获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。下面对本专利技术提供的新闻内容全文检索引擎的构建方法展开详细的说明。具体地,通过网络爬虫获取带有时是访问信息的网站日志,爬虫获取两种主要的数据来源,一部分带有实时访问信息的实时网站日志,另外一部分是带有新闻热度评论信息的新闻网站的数据。进一步地,根据不同的爬虫数据来源,进行简单的分类,分别对原始的爬虫数据进行处理和索引。进一步地,针对过滤后的分词列表,生成反向索引,存入分布式的索引库中;本专利技术中针对的是即时新闻热点,由于新闻的时间特性,通常一篇新闻的访问热度的在新闻发稿的当天为最高值,随后逐步衰减,为了提高检索的性能,索引采用按时间分区的方式进行。如图2所示,对分类后的所述新闻网站数据进行索引包括:S41、按新闻内容的语言种类选择不同的分词器;42、根据所选择的分词器对目标新闻内容进行分词处理,得到分词列表;S43、使用停用词词典,删除所述分词列表中的停用词,得到过滤后的分词列表;S44、针对过滤后的分词列表,生成反向索引,存入分布式的索引库中。生成反向索引是按预定时间划分分区,将新闻网站数据的反向索引则会存储到逻辑分区中。具体地,每篇待索引的新闻稿件都应当有明确的发稿时间,同时为了限制索引分区的数量,可选采取按月分区的方式进行。例如一篇稿件的发稿时间为2018-01-3113:33:21,则使用201801作为该篇稿件的索引的分区,该稿件的反向索引则会存储到201801这个逻辑分区中。索引信息的实际会存储到分布式的键值(key-value)数据中,在实现上我们选择了raft协议,默认的副本为3,即在实际存储索引信息会存粗到三个不同的索引节点上,例如201801这个逻辑分区的所有索引信息会分布到三个不同的物理节点上。获取新闻网站数据中的热度信息是每天统计一次。热度信息包括:稿件ID、访问时间、页面浏览量和独立访客数中地至少一种。具体地,对于稿件的热度信息,本专利技术中采用一天一次统计的方式本文档来自技高网...

【技术保护点】
1.一种新闻内容全文检索引擎的构建方法,其特征在于:该方法包括如下步骤:S1、获取带有实时访问信息的实时网站日志;S2、获取带有新闻热度评论信息的新闻网站的数据;S3、对所述实时网站日志和所述新闻网站数据分类;S4、对分类后的所述新闻网站数据进行处理、索引并存储;S5、获取新闻网站数据中国的新闻元信息并存储;S6、获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。

【技术特征摘要】
1.一种新闻内容全文检索引擎的构建方法,其特征在于:该方法包括如下步骤:S1、获取带有实时访问信息的实时网站日志;S2、获取带有新闻热度评论信息的新闻网站的数据;S3、对所述实时网站日志和所述新闻网站数据分类;S4、对分类后的所述新闻网站数据进行处理、索引并存储;S5、获取新闻网站数据中国的新闻元信息并存储;S6、获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。2.根据权利要求1所述的方法,其特征在于:对分类后的所述新闻网站数据进行索引包括:S41、按新闻内容的语言种类选择不同的分词器;S42、根据所选择的分词器对目标新闻内容进行分词处理,得到分词列表;S43、使用停用词词典,删除所述分词列表中的停用词,得到过滤后的分词列表;S44、针对过滤后的分词列表,生成反向索引,存入分布式的索引库中。3.根据权利要求2所述的方法,其特征在于:所述生成反向索引是按预定时间划分分区,将新闻网站数据的反向索引则会存储到逻辑分区中。4.根据权利要求3所述的方法,其特征在于:根据权利要求3所述的方法,其特征在于:所述按预定时间作为分区是按月划分的。5.根据权利要求1所述的方法,其特征在于:所述获取新闻网站数据中的热度信息是每天统计一次。6.根据权利要求1所述的方法,其特征在于:所述热度信息包括:稿件ID、访问时间、页...

【专利技术属性】
技术研发人员:李雄张传新刘春阳张旭王萌王慧王利军李磊
申请(专利权)人:国家计算机网络与信息安全管理中心北京天润基业科技发展股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1