本发明专利技术公开的属于大数据搜索与存储技术领域,具体为一种实时搜索和大数据存储的方法,具体包括以下步骤:步骤一,通过全网数据采集的大数据爬虫服务对全网采集的原始数据进行全量搜集,在数据采集的同时对数据进行初步清洗,初步清洗后的数据包基于中间件进行数据流转等待下一步的数据处理,本发明专利技术的有益效果是:通过对全网企业数据附加唯一标识区分关联数据,基于Elasticsearch,可以精确搜索企业的具体内容,扩大数据搜索范围,保证极高的搜索效率;基于casandra存储介质,保证大数据存储的可靠性,降低数据存储的成本,保证了数据存储的效率与查询的实时性;这个方法将搜索与数据分离解决了单一存储介质高成本,且难以完成数据高频更新/精确更新的弊端。数据高频更新/精确更新的弊端。
【技术实现步骤摘要】
一种实时搜索和大数据存储的方法
[0001]本专利技术涉及大数据搜索与存储
,具体为一种实时搜索和大数据存储的方法。
技术介绍
[0002]大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
[0003]现有的大数据的检索和存储,搜索效率低,无法保证数据存储的效率与查询的实时性,存在单一存储介质高成本,且难以完成数据高频更新/精确更新的弊端。
技术实现思路
[0004]鉴于现有一种实时搜索和大数据存储的方法中存在的问题,提出了本专利技术。
[0005]因此,本专利技术的目的是提供一种实时搜索和大数据存储的方法,解决了现有的大数据的检索和存储,搜索效率低,无法保证数据存储的效率与查询的实时性,存在单一存储介质高成本,且难以完成数据高频更新/精确更新的弊端的问题。
[0006]为解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了如下技术方案:
[0007]一种实时搜索和大数据存储的方法,具体包括以下步骤:
[0008]具体包括以下步骤:
[0009]步骤一,通过全网数据采集的大数据爬虫服务对全网采集的原始数据进行全量搜集,在数据采集的同时对数据进行初步清洗,初步清洗后的数据包基于中间件进行数据流转等待下一步的数据处理;
[0010]步骤二,通过专门的数据处理服务从中间件获取数据进行数据清洗的处理,数据处理服务中定义对采集数据包的数据字段的处理,根据系统业务设计的算法规则对数据进行处理,对这个数据解析的结果分别生成搜索数据A及详细展示数据B;
[0011]步骤三,将搜索数据A及详细展示数据B分别存储到Elasticsearch和Cassandra存储介质中,对数据做分离处理;
[0012]步骤四,通过分离搜索数据和详细展示数据的设计,实现高效的数据检索,和超大数据量的存储。
[0013]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:步骤一中,在对数据进行初步清洗时,使字符翻译/货币单位换算/解析为指定json数据包结构。
[0014]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:步骤二中,搜索数据A作为搜索维度的数据是基于详细展示数据B生成,详细展示数据B作为完整的详细查看的数据,数据之间通过设计的标识生成规则生成唯一标识,通过这个唯一标识将数据串联起来。
[0015]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:步骤二中,根据系统业务设计的算法规则对数据进行处理,具体包括数据统计和针对联系方式标签判定。
[0016]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:步骤三中,详细展示数据B存储的方面采用Cassandra作为详细展示数据B的载体。
[0017]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:步骤三中,利用Elasticsearch+Cassandra,可以在保证企业的大数据检索和存储的需求下则有效降低服务器资源成本,在有限的资源内可以有更强大的数据处理能力,极大地提升系统的响应效率与查询耗时。
[0018]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:步骤三中,通过这个标识来完成数据的拓扑关系,将全网的数据源进行整合,让它关联为一个整体的数据。
[0019]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:步骤四中,在保证效率的同时完成数据的存储,并且在数据进行更新时能够基于详细展示数据,进行离线任务的更新,在数据更新时可以达到资源隔离的目的。
[0020]作为本专利技术所述的一种实时搜索和大数据存储的方法的一种优选方案,其中:服务器资源相对独立,可以避免因为系统耦合造成的影响,还能够精确实时地对某一数据具体地进行更新。
[0021]与现有技术相比:
[0022]通过对全网企业数据附加唯一标识区分关联数据,基于Elasticsearch,可以精确搜索企业的具体内容,扩大数据搜索范围,保证极高的搜索效率;基于casandra存储介质,保证大数据存储的可靠性,降低数据存储的成本,保证了数据存储的效率与查询的实时性;这个方法将搜索与数据分离解决了单一存储介质高成本,且难以完成数据高频更新/精确更新的弊端。
具体实施方式
[0023]为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术的实施方式做进一步的详细描述。
[0024]本专利技术提供一种实时搜索和大数据存储的方法,具体包括以下步骤:
[0025]步骤一,通过全网数据采集的大数据爬虫服务(spider)对全网采集的原始数据进行全量搜集,在数据采集的同时对数据进行初步清洗如(字符翻译/货币单位换算/解析为指定json数据包结构)等,初步清洗后的数据包基于中间件(Kafka)进行数据流转等待下一步的数据处理;
[0026]步骤二,通过专门的数据处理服务(data)从中间件(kafka)获取数据进行数据清洗的处理,这个服务(data)中定义了对采集数据包的数据字段的处理,根据系统业务设计的算法规则对数据进行处理如(数据统计/针对联系方式标签判定/)等,对这个数据解析的结果分别生成A(用作搜索数据)/B(详细展示数据),搜索数据(A)作为搜索维度的数据是基于详细展示数据(B)生成,详细展示数据(B)作为完整的详细查看的数据,数据之间通过设计的标识生成规则生成唯一标识,通过这个唯一标识将数据串联起来,例如(在一个班级中
有数十个学生,通过班级名将这些学生划分为一个集体),在本专利技术中,这个唯一标识就像是一个班级名称,通过这个标识来完成数据的拓扑关系,将全网的数据源进行整合,让它关联为一个整体的数据;
[0027]步骤三,将搜索数据(A)及详细展示数据(B)分别存储到Elasticsearch和Cassandra存储介质中,对数据做分离处理;搜索数据(A)有着极大的检索需求,检索维度高达数百个,并且数据量巨大,传统的数据库无法满足检索需求。Elasticearch是一个搜索引擎数据库,具有优越的数据查询性能,可以高效地对搜索数据(A)进行数据检索能够支持大数据量的检索场景。详细展示数据(B)数据存在PB级的数据量,然而传统的关系型数据库如(Mysql)只能支持资源的纵向扩展,即在一台服务器进行硬件配置的提升,单台服务器配置的不断提升对于企业的运营成本将会极大地提升并且有着巨大的瓶颈,难以满足大数据量的查询响应速度。本专利技术的设计在详细展示数据(B)存储的方面采用Cassandra作为详细展示数据(B)的载体,Cassandra是一个去中心化的存储数据库,能够支持PB级别的存储检索并且这个数据库支持数据集群的配置,达到数据的横向扩展,数据量不断积累的同时只需要扩展同配置的服务器即可保证存储检索效率,Elasticsearch+Cass本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种实时搜索和大数据存储的方法,其特征在于,具体包括以下步骤:步骤一,通过全网数据采集的大数据爬虫服务对全网采集的原始数据进行全量搜集,在数据采集的同时对数据进行初步清洗,初步清洗后的数据包基于中间件进行数据流转等待下一步的数据处理;步骤二,通过专门的数据处理服务从中间件获取数据进行数据清洗的处理,数据处理服务中定义对采集数据包的数据字段的处理,根据系统业务设计的算法规则对数据进行处理,对这个数据解析的结果分别生成搜索数据A及详细展示数据B;步骤三,将搜索数据A及详细展示数据B分别存储到Elasticsearch和Cassandra存储介质中,对数据做分离处理;步骤四,通过分离搜索数据和详细展示数据的设计,实现高效的数据检索,和超大数据量的存储。2.根据权利要求1所述的一种实时搜索和大数据存储的方法,其特征在于,步骤一中,在对数据进行初步清洗时,使字符翻译/货币单位换算/解析为指定json数据包结构。3.根据权利要求1所述的一种实时搜索和大数据存储的方法,其特征在于,步骤二中,搜索数据A作为搜索维度的数据是基于详细展示数据B生成,详细展示数据B作为完整的详细查看的数据,数据之间通过设计的标识生成规则生成唯一标识,通过这个唯一标识将数据串联起来。4.根据权利要求1所述的一种实时...
【专利技术属性】
技术研发人员:赖建伟,钟立畅,
申请(专利权)人:深圳市智起网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。