一种基于海量BCP数据文件的入库及预处理方法和系统技术方案

技术编号:31499076 阅读:33 留言:0更新日期:2021-12-18 12:46
本发明专利技术提供一种基于海量BCP数据文件的入库及预处理方法和系统。本发明专利技术利用ES搜索引擎可以横向扩展的服务器节点,同时可以处理PB级数据的高可用分布式特点,大大提高了对于海量数据的吞吐能力和查询能力。同时使用ES引擎存储数据减少了频繁创建不同表和维护表的压力。高效的预处理程序,可以提前将多维度的数据进行聚合处理,统计分析,形成拿来即可使用展示的数据,这样可以大大减少现聚合时间,提升用户的体验。户的体验。户的体验。

【技术实现步骤摘要】
一种基于海量BCP数据文件的入库及预处理方法和系统


[0001]本申请涉及海量数据文件的入库
,具体涉及一种基于海量BCP数据文件的入库及预处理方法和系统。

技术介绍

[0002]随着社会的高速发展,各行各业的公司也在快速发展。而随着网络环境的持续渗透,大部分公司都有了自己公司的网络系统,并且公司网络系统的对外还是对内都会产生海量的访问数据。随着时间的推移,这种访问数据将以线性增量增长。出于安全考虑,公司需要对这些访问数据进行实时的监控,这就需要针对海量数据进行入库及预处理,以方便人员查看分析。
[0003]现有技术中,针对一定量数据的文件的入库及分析采用如下方案来处理:拉取数据文件然后读取文件数据,再根据数据库表的设计结构格式化数据,格式化完成后将数据写入到对应的表中。然而,随着业务的横向发展就会产生不同类型不同业务的数据,而这时就需要去不停的创建多张表来存储不同的数据,同时对于分析人员想要的分析数据就需要根据多种条件来现查询处理,随着数据量和库表的不断增加对数据处理的能力就会下降,对用户带来不好的体验。上述现有技术还存在如下缺本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于海量BCP数据文件的入库及预处理方法,其特征在于,该方法包括如下步骤:步骤1、通过扫描来获取BCP文件,并将BCP文件的路径写入到BCP文件队列;步骤2、判断是否发送数据到数据接收服务器,若是,则执行步骤5;若否,则执行步骤3;步骤3、通过线程池启动BCP文件入库程序,执行BCP文件的入库操作;步骤4、预处理线程对ES引擎中的数据进行预处理操作;步骤5、将数据发送至配置好的所述数据接收端服务器。2.根据权利要求1所述的方法,其特征在于,所述通过扫描来获取BCP文件,具体包括:通过线程池启动文件扫描任务线程扫描BCP文件。3.根据权利要求1或2所述的方法,其特征在于,所述将BCP文件的路径写入到BCP文件队列之前,还包括:如果BCP文件为空,则删除这个BCP文件,同时以BCP文件的路径作为BCP文件的唯一标识,把已经入队列的BCP文件记录下来,以用于去除重复入库的BCP文件;如果BCP文件不为空,则判断BCP文件是否已过期,如果BCP文件已过期,则删除该已过期的BCP文件。4.根据权利要求1所述的方法,其特征在于,在将数据发送至配置好的所述数据接收端服务器之前,还包括:根据用户需求来配置数据接收端服务器,所述数据接收端服务器包括kafka、ftp以及sftp。5.根据权利要求1所述的方法,其特征在于,所述执行BCP文件的入库操作,具体包括:步骤301、所述入库程序获取所述BCP文件队列,并提取队列中的BCP文件;步骤302、读取BCP文件的内容,并根据预先配置的ES索引字段来映射BCP文件中每行的内容;步骤303、获取并判断ES引擎的状态,如果ES引擎的状态为绿色,则将映射图map的数据写入到ES引擎中;如果ES引擎的状态为红色或者不可访问,则不会将所述BCP文件入库,直到ES引擎的状态正常;其中,绿色代表健康可使用,红色代表有故障不可用,状态正常时ES引擎的状态为绿色,能够写入和查询数据。6.根据权利要求5所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:朱贺军徐振超
申请(专利权)人:北京亿赛通网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1