电子装置、保单变化数据分布式分析方法及存储介质制造方法及图纸

技术编号:20622313 阅读:44 留言:0更新日期:2019-03-20 14:18
本发明专利技术提出一种保单数据分布式分析方法,该方法包括:当达到预定义的时间后,从预先确定的数据库中抓取预先存储的当月保单数据;将抓取的保单数据直接上传至HDFS中进行存储;基于spark平台对存储在HDFS中的保单数据进行分区处理,以得到多个临时数据表,并将得到的多个临时数据表缓存在分布式内存中;基于spark平台对得到的多个临时数据表中的保单数据进行分析,以得到对所有临时表中的保单变化数据的分析结果,将得到的分析结果返回至预先确定的终端。能够在海量的保单数据中,快速地分析出保单发生变化的数据,提高保单数据分析的效率。此外,本发明专利技术还提出一种电子装置及计算机可读存储介质。

Distributed Analysis Method and Storage Medium for Electronic Devices and Policy Change Data

The invention provides a distributed analysis method for policy data, which includes: when the predefined time is reached, the pre-stored policy data are captured from a predefined database; the captured policy data is uploaded directly to HDFS for storage; the policy data stored in HDFS is partitioned based on spark platform to obtain multiple temporary data tables, and The obtained temporary data tables are cached in distributed memory; the policy data in the obtained temporary data tables are analyzed based on the spark platform to obtain the analysis results of the policy change data in all the temporary tables, and the analysis results are returned to the pre-determined terminals. In order to improve the efficiency of policy data analysis, it can quickly analyze the data of policy changes in a large amount of policy data. In addition, the invention also provides an electronic device and a computer readable storage medium.

【技术实现步骤摘要】
电子装置、保单变化数据分布式分析方法及存储介质
本专利技术涉及保单数据处理领域,尤其涉及一种电子装置、保单变化数据分布式分析方法及存储介质。
技术介绍
随着人们保险意识的增强,保险公司的业务类型也变得越来越广泛,通常,保险公司为了准确地了解市场需求并根据市场需求做出对应的发展规划策略,就需要定期统计出保单数据的变化轨迹,也即需要分析筛选出发生变化的保单数据以及保单数据发生变化的原因。目前,要从海量的保单数据中分析筛选出发生变化的保单数据以及保单数据发送变化的原因,需要耗费大量的时间,且在处理过程中容易出现计算机资源耗尽,而无法支持大规模运算的问题。因此,寻求一种快速高效的保单分析方法是亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提出一种电子装置、保单变化数据分布式分析方法及存储介质,能够在海量的保单数据中,快速地分析出保单发生变化的数据,提高保单数据分析的效率。首先,为实现上述目的,本专利技术提出一种电子装置,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的保单变化数据分布式分析程序,所述保单变化数据分布式分析程序被所述处理器执行时实现如下步骤:A1、当达到预定义的时间后,从预先确定的数据库中抓取预先存储的当月保单数据;A2、将抓取的保单数据直接上传至HDFS中进行存储;A3、基于spark平台对存储在HDFS中的保单数据进行分区处理,以得到多个临时数据表,并将得到的多个临时数据表缓存在分布式内存中;A4、基于spark平台对得到的多个临时数据表中的保单数据进行分析,以得到对所有临时表中的保单变化数据的分析结果,将得到的分析结果返回至预先确定的终端。优选地,所述步骤A3包括:在spark平台中启动spark驱动,并自定义Spark的分区因子;根据自定义的分区数生成RDD,对HDFS文件进行读取,以得到多个临时数据表;将得到的多个临时数据表以RDD形式缓存在分布式内存中。优选地,所述分区因子包括保单数据文件对象,构成保单数据文件对象的数据表的起始位置,构成保单数据文件对象的数据表的长度以及该保单数据文件所在的主机;所述在spark平台中启动spark驱动,并自定义Spark的分区因子的步骤包括:在spark平台中启动spark驱动,构造保单数据文件对象,所述保单数据文件对象包括文件头的开始位置对应的保单号以及文件头的结束位置对应的保单号;基于所述文件头的开始位置对应的保单号和结束位置对于的保单号确定保单数据文件对象的数据表的起始位置、保单数据文件对象的数据表的长度以及该保单数据文件所在的主机。优选地,所述步骤A4包括:分别获取多个临时数据表生成的RDD;基于预定义的保单字段分别遍历存储在RDD中的保单数据,以得到发生变化的保单数据,所述预定义的保单字段包括保单的变化状态,所述保单的变化状态包括脱退单、新增单、状态变化单、信息变化单。优选地,所述保单信息包括保单标识信息、保单生成时间、保单险种类别、保单变化因子。此外,为实现上述目的,本专利技术提出一种保单变化数据分布式分析方法,所述方法包括如下步骤:S1、当达到预定义的时间后,从预先确定的数据库中抓取预先存储的当月保单数据;S2、将抓取的保单数据直接上传至HDFS中进行存储;S3、基于spark平台对存储在HDFS中的保单数据进行分区处理,以得到多个临时数据表,并将得到的多个临时数据表缓存在分布式内存中;S4、基于spark平台对得到的多个临时数据表中的保单数据进行分析,以得到对所有临时表中的保单变化数据的分析结果,将得到的分析结果返回至预先确定的终端。优选地,所述步骤S3包括:在spark平台中启动spark驱动,并自定义Spark的分区因子;根据自定义的分区数生成RDD,对HDFS文件进行读取,以得到多个临时数据表;将得到的多个临时数据表以RDD形式缓存在分布式内存中。优选地,所述分区因子包括保单数据文件对象,构成保单数据文件对象的数据表的起始位置,构成保单数据文件对象的数据表的长度以及该保单数据文件所在的主机;所述在spark平台中启动spark驱动,并自定义Spark的分区因子的步骤包括:在spark平台中启动spark驱动,构造保单数据文件对象,所述保单数据文件对象包括文件头的开始位置对应的保单号以及文件头的结束位置对应的保单号;基于所述文件头的开始位置对应的保单号和结束位置对于的保单号确定保单数据文件对象的数据表的起始位置、保单数据文件对象的数据表的长度以及该保单数据文件所在的主机。优选地,所述步骤S4包括:分别获取多个临时数据表生成的RDD;基于预定义的保单字段分别遍历存储在RDD中的保单数据,以得到发生变化的保单数据,所述预定义的保单字段包括保单的变化状态,所述保单的变化状态包括脱退单、新增单、状态变化单、信息变化单。此外,为了解决上述技术问题,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质存储有保单变化数据分布式分析程序,所述保单变化数据分布式分析程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的保单变化数据分布式分析方法的步骤。本专利技术所提出的电子装置、保单变化数据分布式分析方法及存储介质,通过设定预定义的时间,当达到预定义的时间后,从预先确定的数据库中抓取预先存储的当月保单数据;将抓取的保单数据直接上传至HDFS中进行存储;基于spark平台对存储在HDFS中的保单数据进行分区处理,以得到多个临时数据表,并将得到的多个临时数据表缓存在分布式内存中;基于spark平台对得到的多个临时数据表中的保单数据进行分析,以得到对所有临时表中的保单变化数据的分析结果,将得到的分析结果返回至预先确定的终端。能够在海量的保单数据中,快速地分析出保单发生变化的数据,提高保单数据分析的效率。附图说明图1是本专利技术提出的电子装置一可选的硬件架构的示意图;图2是本专利技术电子装置一实施例中保单变化数据分布式分析程序的程序模块示意图;图3是本专利技术保单变化数据分布式分析方法较佳实施例的实施流程图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。参阅图1所示,是本专利技术提出的电子装置一可选的硬件架构示意图。本实施例中,电子装置10可包括,但不仅限于,可通过通信总线14相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-14的电子装置10,但是应理解的是,并不要本文档来自技高网...

【技术保护点】
1.一种电子装置,其特征在于,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的保单变化数据分布式分析程序,所述保单变化数据分布式分析程序被所述处理器执行时实现如下步骤:A1、当达到预定义的时间后,从预先确定的数据库中抓取预先存储的当月保单数据;A2、将抓取的保单数据直接上传至HDFS中进行存储;A3、基于spark平台对存储在HDFS中的保单数据进行分区处理,以得到多个临时数据表,并将得到的多个临时数据表缓存在分布式内存中;A4、基于spark平台对得到的多个临时数据表中的保单数据进行分析,以得到对所有临时表中的保单变化数据的分析结果,将得到的分析结果返回至预先确定的终端。

【技术特征摘要】
1.一种电子装置,其特征在于,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的保单变化数据分布式分析程序,所述保单变化数据分布式分析程序被所述处理器执行时实现如下步骤:A1、当达到预定义的时间后,从预先确定的数据库中抓取预先存储的当月保单数据;A2、将抓取的保单数据直接上传至HDFS中进行存储;A3、基于spark平台对存储在HDFS中的保单数据进行分区处理,以得到多个临时数据表,并将得到的多个临时数据表缓存在分布式内存中;A4、基于spark平台对得到的多个临时数据表中的保单数据进行分析,以得到对所有临时表中的保单变化数据的分析结果,将得到的分析结果返回至预先确定的终端。2.如权利要求1所述的电子装置,其特征在于,所述步骤A3包括:在spark平台中启动spark驱动,并自定义Spark的分区因子;根据自定义的分区数生成RDD,对HDFS文件进行读取,以得到多个临时数据表;将得到的多个临时数据表以RDD形式缓存在分布式内存中。3.如权利要求2所述的电子装置,其特征在于,所述分区因子包括保单数据文件对象,构成保单数据文件对象的数据表的起始位置,构成保单数据文件对象的数据表的长度以及该保单数据文件所在的主机;所述在spark平台中启动spark驱动,并自定义Spark的分区因子的步骤包括:在spark平台中启动spark驱动,构造保单数据文件对象,所述保单数据文件对象包括文件头的开始位置对应的保单号以及文件头的结束位置对应的保单号;基于所述文件头的开始位置对应的保单号和结束位置对于的保单号确定保单数据文件对象的数据表的起始位置、保单数据文件对象的数据表的长度以及该保单数据文件所在的主机。4.如权利要求1所述的电子装置,其特征在于,所述步骤A4包括:分别获取多个临时数据表生成的RDD;基于预定义的保单字段分别遍历存储在RDD中的保单数据,以得到发生变化的保单数据,所述预定义的保单字段包括保单的变化状态,所述保单的变化状态包括脱退单、新增单、状态变化单、信息变化单。5.如权利要求1-4任一所述的电子装置,其特征在于,所述保单信息包括保单标识信息、保单生成时间、保单险种类别、保单变化因子。6.一种保...

【专利技术属性】
技术研发人员:丁志勇
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1