一种多源异构数据的处理方法及系统技术方案

技术编号：40836196 阅读：5 留言：0更新日期：2024-04-01 15:00

本发明专利技术属于数据处理技术领域，涉及一种多源异构数据的处理方法及系统；方法具体为：获取初始数据并进行预处理；选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；再通过BART模型与改进CNN模型的结合实现基于语义相似的重复数据筛选，该方法不仅能够筛选出字符相同的重复数据，还能够筛选出字符不同但语义相同的重复数据，使得在诸如大型企业的多源异构数据场景下，能够最大程度的消除重复数据，使数据便于统一管理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理，具体而言，涉及一种多源异构数据的处理方法及系统。

技术介绍

1、随着信息化时代的发展，企业所产生的数据越来越多。但是，在获取数据时，由于不同来源的数据在格式、内容、质量上存在着巨大的差异，增加了其他用户获取数据的困难程度，也影响了数据的流动与共享。尤其是针对拥有多部门、多数据源的大企业，企业部门之间需要协作，需要进行数据共享，但各部门独立、异构的数据库严重阻碍了部门的协作，也不利于企业对于数据的有效管理。因此对多源异构数据的处理显得尤为重要。

2、现有的多源异构数据处理对重复记录检测主要是基于字符的相似度，但是在实际的语言表达中，往往相同的语义具有多种不同的表达方式，该情况下，传统的基于字符相似度的多源异构数据处理方式在数据重复记录检测中显得有些捉襟见肘。

技术实现思路

1、本专利技术的目的在于提供多源异构数据的处理方法及系统，以解决基于字符相似度的多源异构数据处理方式在数据重复记录检测中准确度不高的技术问题。

2、本专利技术的实施例通过以下技术方案实现：

3、第一方面，提供一种多源异构数据的处理方法，包括如下步骤：

4、获取初始数据并进行预处理；

5、选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；

6、将所述文本表示向量输入到基于bart的预训练模型中，并将所述预训练模型中解码器的最后一个token对应的最终隐藏状态作为第一输出数据；

7、再将所

8、清理待清洗数据，并对清理后的数据按数据主题进行存储。

9、进一步的，所述获取初始数据包括公开数据获取以及私密数据获取；所述私密数据为需要通过基于http协议进行身份验证与数据请求后获取的数据。

10、进一步的，所述预处理为，判断加载的数据中是否有空值，若没有，则进行后续处理步骤；否则，判断该空值是否为待分析处理字段，若是，则删除空值；否则对空值进行预设字符填充。

11、进一步的，所述选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量具体为：

12、对待检测字段进行文本清洗，去除包括特殊字符、标点符号及html标签的非文本内容信息；

13、并对清洗后的文本去除停用词，得到待处理文本数据；

14、通过word2vec算法获取所述文本数据的初始词嵌入向量，并加上位置嵌入向量得到文本表示向量。

15、进一步的，所述改进cnn模型具体为，将输入层的维度设置为与所述预训练模型中解码器的最后一个token对应的最终隐藏状态的维度相同，且输入通道数设置为2，并在c5卷积层后再加一全连接层。

16、进一步的，所述清理待清洗数据之前包括：

17、基于k-means算法的全局异常值检测，具体为：

18、设置簇数k并输入待检测数据；

19、通过k-means算法聚类后获取簇内中心坐标；

20、计算每个簇内数据到簇内中心坐标的欧式距离，并将与簇内中心坐标的欧式距离大于所有簇内数据到簇内中心坐标的欧式距离的平均值的数据点作为疑似异常点；

21、获取所有疑似异常点到簇内中心坐标的距离的平均值与待检测疑似异常点到簇内中心坐标的距离的差值，当所述差值大于簇内所有数据点到簇内中心坐标的距离的标准差的预设倍数时，则将所述待检测疑似异常点标记为异常数据点，并将所述异常数据点加入待清洗数据。

22、进一步的，所述清理待清洗数据之前还包括：

23、基于灰色关联度和k-means算法的关联性数据异常检测，具体为：

24、选择一待检测事项，并获取每个个体与待检测事项相关的多个关联信息；并对所述关联信息进行标准化处理；

25、使用灰色关联度算法获取标准化处理后的每个个体的关联信息之间的关联度；

26、再通过k-means算法将关联度进行分类并筛选出异常数据，并将异常数据加入待清洗数据。

27、第二方面，提供一种多源异构数据的处理系统，包括：

28、数据抽取单元，其用于获取初始数据，包括公开数据获取模块以及私密数据获取模块；

29、数据清洗单元，其用于筛选并清理重复数据与异常值数据，以及处理空值数据；

30、数据整合单元，其用于将不同数据源的清洗后的数据进行整合处理；

31、数据存储单元，其用于将整合处理后的数据存储到数据仓库主题对应的事实表和维度表中。

32、进一步的，所述私密数据获取模块用于通过基于http协议进行身份验证与数据请求后获取的数据。

33、进一步的，所述数据清洗单元包括：

34、重复数据筛选模块，其通过bart模型与改进cnn模型的结合实现基于语义相似的重复数据筛选；具体为：选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；将所述文本表示向量输入到基于bart的预训练模型中，并将所述预训练模型中解码器的最后一个token对应的最终隐藏状态作为第一输出数据；再将所述第一输出数据输入到基于lenet-5的改进cnn模型中得到第二输出数据；并将所述第二输出数据通过sigmoid函数映射为0-1之间的概率值；所述概率值大于预设值时，则将其中一字段加入待清洗数据，否则保留检测的字段；

35、空值数据处理模块，其用于识别字段中的缺失值，并填充预设填充值；

36、异常值数据筛选模块，其用于对全局异常值的检测筛选以及对关联性数据异常值的检测筛选；其中，所述全局异常值的检测筛选具体为：设置簇数k并输入待检测数据；通过k-means算法聚类后获取簇内中心坐标；计算每个簇内数据到簇内中心坐标的欧式距离，并将与簇内中心坐标的欧式距离大于所有簇内数据到簇内中心坐标的欧式距离的平均值的数据点作为疑似异常点；获取所有疑似异常点到簇内中心坐标的距离的平均值与待检测疑似异常点到簇内中心坐标的距离的差值，当所述差值大于簇内所有数据点到簇内中心坐标的距离的标准差的预设倍数时，则将所述待检测疑似异常点标记为异常数据点，并将所述异常数据点加入待清洗数据；所述关联性数据异常值的检测筛选具体为：选择一待检测事项，并获取每个个体与待检测事项相关的多个关联信息；并对所述关联信息进行标准化处理；使用灰色关联度算法获取标准化处理后的每个个体的关联信息之间的关联度；再通过k-means算法将关联度进行分类并筛选出异常数据，并将异常数据加入待清洗数据；

37、以及，数据清理模块，其用于清理所述待清洗数据。

38、本专利技术实施例的技术方案至少具有如下优点和有益效果：

39、通过bart模型与改进cn本文档来自技高网...

【技术保护点】

1.一种多源异构数据的处理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述获取初始数据包括公开数据获取以及私密数据获取；所述私密数据为需要通过基于HTTP协议进行身份验证与数据请求后获取的数据。

3.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述预处理为，判断加载的数据中是否有空值，若没有，则进行后续处理步骤；否则，判断该空值是否为待分析处理字段，若是，则删除空值；否则对空值进行预设字符填充。

4.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量具体为：

5.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述改进CNN模型具体为，将输入层的维度设置为与所述预训练模型中解码器的最后一个token对应的最终隐藏状态的维度相同，且输入通道数设置为2，并在C5卷积层后再加一全连接层。

6.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述清理待清洗数据之前包括：</p>

7.根据权利要求1或6所述的多源异构数据的处理方法，其特征在于，所述清理待清洗数据之前还包括：

8.一种多源异构数据的处理系统，其特征在于，包括：

9.根据权利要求8所述的多源异构数据的处理系统，其特征在于，所述私密数据获取模块用于通过基于HTTP协议进行身份验证与数据请求后获取的数据。

10.根据权利要求8所述的多源异构数据的处理系统，其特征在于，所述数据清洗单元包括：

...

【技术特征摘要】

1.一种多源异构数据的处理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述获取初始数据包括公开数据获取以及私密数据获取；所述私密数据为需要通过基于http协议进行身份验证与数据请求后获取的数据。

5.根据权利要求1所述的多源异构数据的处理方法，其特...

【专利技术属性】
技术研发人员：唐思佳，李贞昊，雷思情，桑楠，雷航，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人