一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统技术方案

技术编号:34322514 阅读:16 留言:0更新日期:2022-07-31 00:29
本发明专利技术公开了一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,主要功能包括:实现政务信息资源按主题分类和智能化搜索,方法流程包括收集政府数据,对政府信息资源按照政府信息内在相关性和与公众密切相关的主题进行划分,形成多级分类树。搭建Elasticsearch集群,基于Elasticsearch对S1底层数据进行优化,通过RabbitMQ消息中间件异步接入政府信息资源数据。接受用户查询请求并对该请求进行应答。获取用户反馈存入评价列表,并根据评价列表更新多级分类树。根据上述方法构建系统,系统分为数据收集清洗单元、存储单元、服务单元、交互单元以及展示单元。元以及展示单元。元以及展示单元。

【技术实现步骤摘要】
一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统


[0001]本专利技术涉及政府数据采集分类以及查询性能优化领域,具体涉及一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统。

技术介绍

[0002]随着电子政务的发展,政府提供的信息服务对公众有着非凡的意义,个性化的、结构化的信息服务模式要求电子政务能够具备应对动态信息需求的能力、解决电子政务信息发布零散的问题。另外政府信息资源的分类是开展信息交流和信息资源共享的重要前提。
[0003]在传统的数据库中,数据的组织形式是基于事务处理的,这很难考虑到在与信息服务需求密切相关的主题下组织信息,同时这些数据分散存储在各个政府部门异构的数据库中,不能有效地集成数据。此外,大量的历史数据离线存储,难以在线查询。最后现有的分类系统大多没有统一的规范和全面的分类方案,而且分类方法简单,不能满足整体管理的需要。ElasticSearch是一个开源的分布式搜索引擎,它既能存储和管理大规模的非结构化数据,也能实现对其存储数据的近实时全文检索。在电子政务中引入Elasticsearch技术,更合理地组织数据存储结构和数据资源挖掘,帮助电子政务提供越来越全方位、多功能的信息服务,更好地满足个性化信息服务的要求。对提高公众满意度和建立服务型政府具有积极意义。

技术实现思路

[0004]本专利技术实例提供一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,提高了政府信息资源的存储效率和用户在搜索和查询政府数据时的效率。
[0005]为满足上述需求,本专利提供了一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,包括以下过程:
[0006]S1:收集政府数据,对政府信息资源按照政府信息内在相关性和与公众密切相关的主题进行划分,形成多级分类树。
[0007]S2:搭建Elasticsearch集群,基于Elasticsearch对S1底层数据进行优化,通过RabbitMQ消息中间件异步接入政府信息资源数据。
[0008]S3:接受用户查询请求并对该请求进行应答。
[0009]S4:获取用户反馈存入评价列表,并根据评价列表更新多级分类树。
[0010]S5:根据上述方法构建系统,系统分为数据收集清洗单元、存储单元、服务单元、交互单元以及展示单元。
[0011]1、据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S1包括:
[0012]S11:收集政府信息资源,所收集的数据包括内部数据和外部数据。内部数据是政府组织内部产生的当前和历史数据;外部数据是通过网虫爬网web所获得的政府主题相关
数据,包括非官方政策解读、商业报告、评估报告以及其他未经收录的其他信息。
[0013]S12:数据清洗,包括消除内部和外部数据的各种语义冲突;分析内部外部的统一数据,包括同名文件、同名字段、同义词、同主题词;消除内部外部数据冗余;统一所有数据的编码规则。
[0014]S13:计算文档之间的关联度,按照政府数据的内在联系、文档之间的关联度以及主题进行分类构建多级分类树。
[0015]2、据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S2包括:
[0016]S21:在Elasticsearch集群搭建完成并按照S1形成的多级分类树搭建搜索引擎的基础上,将清洗后的各类数据通过RabbitMQ消息中间件异步接入政务公开数据,并将接入的数据转换为便于检索的JSON格式文档并编号。
[0017]S22:将多级分类树包含的文档使用分词器划分并计算每个分词term的词频逆向文件频率TF

IDF,聚合后将文档按term存入索引。
[0018]S23:查询构建。基于全文检索、结构化检索、匹配主题检索、关联检索、数据类型等构建查询,根据逆向文件频率TF

IDF确定排序策略。
[0019]3、据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S3包括:
[0020]S31:接收用户发起的查询请求并将用户查询请求解析为ES

DSL查询语句。
[0021]S32:将ES

DSL查询语句存入RabbitMQ消息队列。
[0022]S33:Elasticsearch从RabbitMQ获取任务然后根据ES

DSL查询语句根据构建的查询模型进行数据搜索,并按顺序返回检索到的目标数据。
[0023]4、据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S4包括:
[0024]S41:历史查询记录从RabbitMQ获取任务并解析用户查询请求,对用户查询请求进行记忆存储。
[0025]S42:将用户对上述检索数据的反馈发送至历史查询记录,历史查询记录对反馈进行分析并将分析结果存入评价列表,每隔一段时间将更新后的评价列表存入RabbitMQ消息队列。
[0026]S43:Elasticsearch从RabbitMQ获取任务然后根据评价列表分析结果调整词频逆向文件频率TF

IDF并重新计算相关度权重,根据更新refresh创建新的段,更新政府信息资源多级分类树。
[0027]5、据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S5包括:系统分为数据收集清洗单元、存储单元、服务单元、交互单元以及展示单元。
[0028]数据收集清洗单元:分为数据收集模块、数据清洗模块和数据传输模块。用于整合、处理政府信息相关数据。
[0029]数据收集模块:所收集的数据包括内部数据和外部数据。
[0030]数据清洗模块:数据清洗、形成多级分类树。
[0031]数据传输模块:通过RabbitMQ消息中间件对清洗后的数据进行异步传输。
[0032]存储单元:分为智能划分模块、查询构建模块和相关度重构模块。通过搭建的Elasticsearch集群对政府信息数据进行易于检索的存储,存储按照按照政府信息内在相关性和与公众密切相关的主题划分。
[0033]其中智能划分模块:在Elasticsearch集群构建易于检索的文件块并添加索引。
[0034]查询构建模块:基于多种检索模型,根据逆向文件频率TF

IDF确定排序策略。在接收数据检索模块发送的ES

DSL查询语句后根据构建的查询模型进行数据搜索,并按顺序发送被检索的目标数据到展示单元。
[0035]相关度重构模块:用于调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,包括以下步骤:S1:收集政府数据,对政府信息资源按照政府信息内在相关性和与公众密切相关的主题进行划分,形成多级分类树;S2:搭建Elasticsearch集群,基于Elasticsearch对S1底层数据进行优化,通过RabbitMQ消息中间件异步接入政府信息资源数据;S3:接受用户查询请求并对该请求进行应答;S4:获取用户反馈存入评价列表,并根据评价列表更新多级分类树;S5:根据上述方法构建系统,系统分为数据收集清洗单元、存储单元、服务单元、交互单元以及展示单元。2.据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S1包括:S11:收集政府信息资源,所收集的数据包括内部数据和外部数据;内部数据是政府组织内部产生的当前和历史数据;外部数据是通过网虫爬网web所获得的政府主题相关数据,包括非官方政策解读、商业报告、评估报告以及其他未经收录的其他信息;S12:数据清洗,包括消除内部和外部数据的各种语义冲突;分析内部外部的统一数据,包括同名文件、同名字段、同义词、同主题词;消除内部外部数据冗余;统一所有数据的编码规则;S13:计算文档之间的关联度,按照政府数据的内在联系、文档之间的关联度以及主题进行分类构建多级分类树。3.据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S2包括:S21:在Elasticsearch集群搭建完成并按照S1形成的多级分类树搭建搜索引擎的基础上,将清洗后的各类数据通过RabbitMQ消息中间件异步接入政务公开数据,并将接入的数据转换为便于检索的JSON格式文档并编号;S22:将多级分类树包含的文档使用分词器划分并计算每个分词term的词频逆向文件频率TF

IDF,聚合后将文档按term存入索引;S23:查询构建:基于全文检索、结构化检索、匹配主题检索、关联检索、数据类型等构建查询,根据逆向文件频率TF

IDF确定排序策略。4.据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S3包括:S31:接收用户发起的查询请求并将用户查询请求解析为ES

DSL查询语句;S32:将ES

DSL查询语句存入RabbitMQ消息队列;S33:Elasticsearch从RabbitMQ获取任务然后根据ES

DSL查询语句根据构建的查询模型进行数据搜索,并按顺序返回检索到的目标数据。5.据权力要求1所述的一种基于Elasticsearch的政府信息资源分类与智能化搜索方法和系统,其特征在于,所述步骤S4包括:S41:历史查询记录从RabbitMQ获取任务并解析用户查询请求,对用户查询请求进行记忆存储;
S42:将用户对上述检索数据的反馈发送至历史查询记录,历史查询记录对反馈进行分析并将分析结果存入评价列表,每隔一段时间将更新后的评价列表存入RabbitMQ消息队列;S4...

【专利技术属性】
技术研发人员:周鸣乐王然李敏李刚韩德隆刘一鸣李旺
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1