一种新闻内容全文检索引擎的构建方法及装置制造方法及图纸

技术编号：19425112 阅读：78 留言：0更新日期：2018-11-14 10:36

本发明专利技术涉及一种新闻内容全文检索引擎的构建方法及装置，该方法步骤如下：获取带有实时访问信息的实时网站日志；获取带有新闻热度评论信息的新闻网站的数据；对所述实时网站日志和所述新闻网站数据分类；对分类后的所述新闻网站数据进行处理、索引并存储；获取新闻网站数据中国的新闻元信息并存储；获取新闻网站数据中的热度信息进行存储，并对新闻网站数据中的热度信息统计。本发明专利技术在查询性能、索引空间和构建性能方面实现了合理的平衡；考虑到统计数据随时间变化的特性，动态更新索引结果；提高了系统的健壮性；提高统计数据与文本数据的复合查询性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种新闻内容全文检索引擎的构建方法及装置
本专利技术涉及一种新闻内容全文检索引擎的构建方法及装置，尤其涉及一种基于统计指标增量更新的新闻内容全文检索引擎的构建方法，属于数据处理

技术介绍
传统的新闻内容全文检索引擎仅仅支持对自由文本的索引，而数据统计分析通常采用数据库来进行检索，当需要同时获取新闻内容检索结果和基于新闻的统计数据时，只能将两种检索分开进行操作，一方面无法保证索引数据和统计数据的局部性，检索统计性能无法保证，既费时费力，同时依赖外部数据库又增加了系统的耦合度。
技术实现思路
本专利技术的目的在于提供一种新闻内容全文检索引擎的构建方法及装置，适合于使用在数据统计和内容分析混合型的数据管理引擎中，以提高统计数据与文本数据的复合查询性能。一种新闻内容全文检索引擎的构建方法，包括：S1、获取带有实时访问信息的实时网站日志；S2、获取带有新闻热度评论信息的新闻网站的数据；S3、对所述实时网站日志和所述新闻网站数据分类；S4、对分类后的所述新闻网站数据进行处理、索引并存储；S5、获取新闻网站数据中国的新闻元信息并存储；S6、获取新闻网站数据中的热度信息进行存储，并对新闻网站数据中的热度信息统计。其中，对分类后的所述新闻网站数据进行索引包括：S41、按新闻内容的语言种类选择不同的分词器；S42、根据所选择的分词器对目标新闻内容进行分词处理,得到分词列表；S43、使用停用词词典，删除所述分词列表中的停用词，得到过滤后的分词列表；S44、针对过滤后的分词列表，生成反向索引，存入分布式的索引库中。其中，所述生成反向索引是按预定时间划分分区，将新闻网站数据的...

【技术保护点】
1.一种新闻内容全文检索引擎的构建方法，其特征在于：该方法包括如下步骤：S1、获取带有实时访问信息的实时网站日志；S2、获取带有新闻热度评论信息的新闻网站的数据；S3、对所述实时网站日志和所述新闻网站数据分类；S4、对分类后的所述新闻网站数据进行处理、索引并存储；S5、获取新闻网站数据中国的新闻元信息并存储；S6、获取新闻网站数据中的热度信息进行存储，并对新闻网站数据中的热度信息统计。

【技术特征摘要】
1.一种新闻内容全文检索引擎的构建方法，其特征在于：该方法包括如下步骤：S1、获取带有实时访问信息的实时网站日志；S2、获取带有新闻热度评论信息的新闻网站的数据；S3、对所述实时网站日志和所述新闻网站数据分类；S4、对分类后的所述新闻网站数据进行处理、索引并存储；S5、获取新闻网站数据中国的新闻元信息并存储；S6、获取新闻网站数据中的热度信息进行存储，并对新闻网站数据中的热度信息统计。2.根据权利要求1所述的方法，其特征在于：对分类后的所述新闻网站数据进行索引包括：S41、按新闻内容的语言种类选择不同的分词器；S42、根据所选择的分词器对目标新闻内容进行分词处理,得到分词列表；S43、使用停用词词典，删除所述分词列表中的停用词，得到过滤后的分词列表；S44、针对过滤后的分词列表，生成反向索引，存入分布式的索引库中。3.根据权利要求2所述的方法，其特征在于：所述生成反向索引是按预定时间划分分区，将新闻网站数据的反向索引则会存储到逻辑分区中。4.根据权利要求3所述的方法，其特征在于：根据权利要求3所述的方法，其特征在于：所述按预定时间作为分区是按月划分的。5.根据权利要求1所述的方法，其特征在于：所述获取新闻网站数据中的热度信息是每天统计一次。6.根据权利要求1所述的方法，其特征在于：所述热度信息包括：稿件ID、访问时间、页...

【专利技术属性】
技术研发人员：李雄，张传新，刘春阳，张旭，王萌，王慧，王利军，李磊，
申请(专利权)人：国家计算机网络与信息安全管理中心，北京天润基业科技发展股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人