一种实时搜索和大数据存储的方法技术

技术编号：39253790 阅读：9 留言：0更新日期：2023-10-30 12:05

本发明专利技术公开的属于大数据搜索与存储技术领域，具体为一种实时搜索和大数据存储的方法，具体包括以下步骤：步骤一，通过全网数据采集的大数据爬虫服务对全网采集的原始数据进行全量搜集，在数据采集的同时对数据进行初步清洗，初步清洗后的数据包基于中间件进行数据流转等待下一步的数据处理，本发明专利技术的有益效果是：通过对全网企业数据附加唯一标识区分关联数据，基于Elasticsearch，可以精确搜索企业的具体内容，扩大数据搜索范围，保证极高的搜索效率；基于casandra存储介质，保证大数据存储的可靠性，降低数据存储的成本，保证了数据存储的效率与查询的实时性；这个方法将搜索与数据分离解决了单一存储介质高成本，且难以完成数据高频更新/精确更新的弊端。数据高频更新/精确更新的弊端。

全部详细技术资料下载

【技术实现步骤摘要】
一种实时搜索和大数据存储的方法

[0001]本专利技术涉及大数据搜索与存储
，具体为一种实时搜索和大数据存储的方法。

技术介绍

[0002]大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
[0003]现有的大数据的检索和存储，搜索效率低，无法保证数据存储的效率与查询的实时性，存在单一存储介质高成本，且难以完成数据高频更新/精确更新的弊端。

技术实现思路

[0004]鉴于现有一种实时搜索和大数据存储的方法中存在的问题，提出了本专利技术。
[0005]因此，本专利技术的目的是提供一种实时搜索和大数据存储的方法，解决了现有的大数据的检索和存储，搜索效率低，无法保证数据存储的效率与查询的实时性，存在单一存储介质高成本，且难以完成数据高频更新/精确更新的弊端的问题。
[0006]为解决上述技术问题，根据本专利技术的一个方面，本专利技术提供了如下技术方案：
[0007]一种实时搜索和大数据存储的方法，具体包括以下步骤：
[0008]具体包括以下步骤：
[0009]步骤一，通过全网数据采集的大数据爬虫服务对全网采集的原始数据进行全量搜集，在数据采集的同时对数据进行初步清洗，初步清洗后的数据包基于中间件进行数据流转等待下一步的数据处理；
[0010]步骤二，通过专门的数据处理服务从中间件获取数据进行数据清洗的处理，数据处理服务中定义...

【技术保护点】

【技术特征摘要】
1.一种实时搜索和大数据存储的方法，其特征在于，具体包括以下步骤：步骤一，通过全网数据采集的大数据爬虫服务对全网采集的原始数据进行全量搜集，在数据采集的同时对数据进行初步清洗，初步清洗后的数据包基于中间件进行数据流转等待下一步的数据处理；步骤二，通过专门的数据处理服务从中间件获取数据进行数据清洗的处理，数据处理服务中定义对采集数据包的数据字段的处理，根据系统业务设计的算法规则对数据进行处理，对这个数据解析的结果分别生成搜索数据A及详细展示数据B；步骤三，将搜索数据A及详细展示数据B分别存储到Elasticsearch和Cassandra存储介质中，对数据做分离处理；步骤四，通过分离搜索数据和详细展示数据的设计，实现高效的数据检索，和超大数据量的存储。2.根据权利要求1所述的一种实时搜索和大数据存储的方法，其特征在于，步骤一中，在对数据进行初步清洗时，使字符翻译/货币单位换算/解析为指定json数据包结构。3.根据权利要求1所述的一种实时搜索和大数据存储的方法，其特征在于，步骤二中，搜索数据A作为搜索维度的数据是基于详细展示数据B生成，详细展示数据B作为完整的详细查看的数据，数据之间通过设计的标识生成规则生成唯一标识，通过这个唯一标识将数据串联起来。4.根据权利要求1所述的一种实时...

【专利技术属性】
技术研发人员：赖建伟，钟立畅，
申请(专利权)人：深圳市智起网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人