一种多源数据关联抽取的方法及装置制造方法及图纸

技术编号：41223589 阅读：4 留言：0更新日期：2024-05-09 23:42

本发明专利技术提供了一种多源数据关联抽取的方法及装置，所述方法包括：分别从Elasticsearch及MySQL中刷新频率较低的表中抽取需求中所要用到的字段，并将其以内存缓存的方式存储在缓存文件中，将缓存文件以文件形式存储在计算机内存中构成一级缓存文件；获取一级缓存与数据库中刷新频率较高的表通过相同定义字段进行关联，并将关联后的数据以哈希表或者数组形式将缓存文件存储到计算机内存中，构成二级缓存文件；对对端服务器文本文件进行预处理，通过需求调研时规范提供的相同定义字段将文本文件与二级缓存文件进行关联，定义相关指标算法，生成最终数据及数据结构；将最终数据插入到ClickHouse中。以此方式，解决了数据难以在规定时间内入库以及数据倾斜的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术的实施例一般涉及数据处理，尤其涉及一种多源数据关联抽取方法及装置。

技术介绍

1、随着当今社会数据的日益膨胀，生产、通信、医疗等行业产生了大量非结构化的实时或滞后数据，这些数据呈现出结构相异、来源渠道多样、数据冗余程度高等特点，不仅在数据采集角度的用户增加了不断重复的工作量，不同数据源的入库加载也是极其繁琐的，数据集成入库的过程中增加了失误的概率。另外，数据量过大也容易导致的数据难以在规定时间内入库以及数据倾斜等问题，随着数据量的不断增长，传统的数据处理方法已经难以满足实际需求，因此需要一种新的技术方案来解决这些问题。

技术实现思路

1、为解决以上问题，本专利技术通过对数据的抽取、缓存、关联的方法，实现了亿级别、千万级别和百万级别数据之间的关联入库，解决了数据量过大导致的数据难以在规定时间内入库及数据倾斜的问题。

2、根据本专利技术的实施例，提供了一种多源数据关联抽取的方法及装置。

3、在本专利技术的第一方面，提供了一种多源数据关联抽取的方法。该方法包括：

4、s01：分别从elasticsearch及mysql中刷新频率较低的表中抽取需求中所要用到的字段，并将其以内存缓存的方式存储在缓存文件中，将缓存文件以文件形式存储在计算机内存中构成一级缓存文件；

5、s02：获取一级缓存与数据库中刷新频率较高的表通过相同定义字段进行关联，并将关联后的数据以哈希表或者数组形式将缓存文件存储到计算机内存中，构成二级缓存文件；

7、s04：将最终数据插入到clickhouse中。

8、进一步地，s01中所述的一级缓存文件和s02中所述的二级缓存文件周期性更新。

9、进一步地，s01中所述的一级缓存文件和s02中所述的二级缓存文件的文件名均增加日期标注，并通过shell脚本读取缓存文件名对历史文件进行定时清理。

10、进一步地，s03中所述的对对端文本文件进行预处理具体步骤为：将文本文件分成若干个不同的地市文件，并对数据量较大的地市文件通过时间进行二次切割，生成以原文件名加上地市加上切割时间命名的多个新文件。

11、进一步地，s03中所述的相关指标算法根据需求定义。

12、在本专利技术的第二方面，提供了一种多源数据关联抽取的装置。该装置包括：

13、字段抽取模块：用于分别从elasticsearch及mysql中刷新频率较低的表中抽取需求中所要用到的字段，并将其以内存缓存的方式存储在缓存文件中，将缓存文件以文件形式存储在计算机内存中构成一级缓存文件；

14、字段关联模块：用于获取一级缓存与数据库中刷新频率较高的表通过相同定义字段进行关联，并将关联后的数据以哈希表或者数组形式将缓存文件存储到计算机内存中，构成二级缓存文件；

15、文本关联模块：用于对对端服务器文本文件进行预处理，通过需求调研时规范提供的相同定义字段将文本文件与二级缓存文件进行关联，定义相关指标算法，生成最终数据及数据结构；

16、数据存储模块：用于将最终数据插入到clickhouse中。

17、进一步地，字段抽取模块中所述的一级缓存文件和字段关联模块中所述的二级缓存文件周期性更新。

18、进一步地，字段抽取模块中所述的一级缓存文件和字段关联模块中所述的二级缓存文件的文件名均增加日期标注，并通过shell脚本读取缓存文件名对历史文件进行定时清理。

19、进一步地，文本关联模块中所述的对对端文本文件进行预处理具体步骤为：将文本文件分成若干个不同的地市文件，并对数据量较大的地市文件通过时间进行二次切割，生成以原文件名加上地市加上切割时间命名的多个新文件。

20、进一步地，文本关联模块中所述的相关指标算法根据需求定义。

21、以上提及英文缩写释义：

22、elasticsearch：位于elastic stack核心的分布式搜索和分析引擎

23、mysql：一个关系型数据库管理系统

24、clickhouse：一个真正的列式数据库管理系统

25、本专利技术通过对数据的抽取、缓存、关联的方法，实现了亿级别、千万级别和百万级别数据之间的关联入库，解决了数据量过大导致的数据难以在规定时间内入库及数据倾斜的问题。

26、应当理解，
技术实现思路
部分中所描述的内容并非旨在限定本专利技术的实施例的关键或重要特征，亦非用于限制本专利技术的范围。本专利技术的其它特征将通过以下的描述变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种多源数据关联抽取的方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，S01中所述的一级缓存文件和S02中所述的二级缓存文件周期性更新。

3.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，S01中所述的一级缓存文件和S02中所述的二级缓存文件的文件名均增加日期标注，并通过shell脚本读取缓存文件名对历史文件进行定时清理。

4.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，S03中所述的对对端文本文件进行预处理具体步骤为：将文本文件分成若干个不同的地市文件，并对数据量较大的地市文件通过时间进行二次切割，生成以原文件名加上地市加上切割时间命名的多个新文件。

5.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，S03中所述的相关指标算法根据需求定义。

6.一种多源数据关联抽取的装置，其特征在于，该装置包括：

7.根据权利要求6所述的一种多源数据关联抽取的装置，其特征在于，字段抽取模块中所述的一级缓存文件和字段关联模块中所述的二级缓存文件周期性更新。

8.根据权利要求6所述的一种多源数据关联抽取的装置，其特征在于，字段抽取模块中所述的一级缓存文件和字段关联模块中所述的二级缓存文件的文件名均增加日期标注，并通过shell脚本读取缓存文件名对历史文件进行定时清理。

9.根据权利要求6所述的一种多源数据关联抽取的装置，其特征在于，文本关联模块中所述的对对端文本文件进行预处理具体步骤为：将文本文件分成若干个不同的地市文件，并对数据量较大的地市文件通过时间进行二次切割，生成以原文件名加上地市加上切割时间命名的多个新文件。

10.根据权利要求6所述的一种多源数据关联抽取的装置，其特征在于，文本关联模块中所述的相关指标算法根据需求定义。

...

【技术特征摘要】

1.一种多源数据关联抽取的方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，s01中所述的一级缓存文件和s02中所述的二级缓存文件周期性更新。

3.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，s01中所述的一级缓存文件和s02中所述的二级缓存文件的文件名均增加日期标注，并通过shell脚本读取缓存文件名对历史文件进行定时清理。

4.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，s03中所述的对对端文本文件进行预处理具体步骤为：将文本文件分成若干个不同的地市文件，并对数据量较大的地市文件通过时间进行二次切割，生成以原文件名加上地市加上切割时间命名的多个新文件。

5.根据权利要求1所述的一种多源数据关联抽取的方法，其特征在于，s03中所述的相关指标算法根据需求定义。

6.一种多源...

【专利技术属性】
技术研发人员：赵鹏飞，
申请(专利权)人：中盈优创资讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人