基于多源数据联合检测的数据集异常识别方法技术

技术编号：40389478 阅读：7 留言：0更新日期：2024-02-20 22:21

本发明专利技术涉及数据质量技术领域，具体涉及了一种基于多源数据联合检测的数据集异常识别方法。包括以下步骤：S100：分别获取来自不同参与方的文本类数据的数据集；S200：识别并提取出不同参与方的数据集中具有交集的部分，作为识别数据集，分别对不同参与方的识别数据集进行预处理后，将识别数据集中的各项文本数据均转换为特征向量300：将不同参与方的识别数据集中的特征向量进行比对，各个参与方的识别数据中文本数据不一致的部分，作为异常数据，并对异常数据进行定位；S400：分别识别异常数据在其所述识别数据集中的数据归属中的数据属性，根据数据属性选择检测方式，检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据质量，具体涉及了一种基于多源数据联合检测的数据集异常识别方法。

技术介绍

1、数据质量是数据发挥价值的关键，而异常数据检测便是确保数据质量的关键手段。文本数据异常原因有很多，包括输入错误、填充错位、类型错误等，这类型的文本数据异常比常规的数值数据异常更加难以检测，严重影响文本模型训练的数据应用效果。传统常见的异常数据检测方法有重复值检测、缺失值检测、格式错误检测、离群值检测、基于预定义规则检测等方法，这些方法均是更加明显的特征和规则检测，更加适合数值类数据异常，无法检测文本类的数据异常。近年来，有研究基于自然语言处理的检测方法，通过学习的方式检测异常数据特征，但这些方法主要局限于单一数据源的数据检测，无法在隐私计算保护的情况下，实现多源数据特征学习异常数据检测方法。

技术实现思路

1、本专利技术所解决的技术问题在于提供一种基于多源数据联合检测的数据集异常识别方法，能够对不同数据源的文本类数据异常进行识别。

2、本专利技术提供的基础方案：基于多源数据联合检测的数据集异常识别方法，包括以下步骤：

3、s100：分别获取来自不同参与方的文本类数据的数据集；

4、s200：识别并提取出不同参与方的数据集中具有交集的部分，作为识别数据集，分别对不同参与方的识别数据集进行预处理后，将识别数据集中的各项文本数据均转换为特征向量并上传特征识别模型；

5、s300：将不同参与方的识别数据集中的特征向量进行比对，各个参与方的识别数据中文

6、s400：分别识别异常数据在其所述识别数据集中的数据归属中的数据属性，所述数据归属为，在识别数据集中文本含义类型一致的文本数据的集合，根据数据属性选择检测方式，检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据；

7、s500：将异常数据，反馈给所属识别数据集的参与方。

8、本专利技术的原理及优点在于：首先将获取到不同参与方的数据集，识别其中交集，即具有相同文本类数据的部分。作为识别数据集，将其转换为特征向量后，将不同识别数据集中的特征向量进行比对，识别出其中不一致的部分，认为是异常数据，并进行定位。异常数据即为在识别数据集中，文本表述不一致的数据，在某些参与方的识别数据集中是记载正确，在某些识别数据集中记载错误，则需要识别哪些参与方的异常数据正确，哪些参与方的异常数据错误。通过对其数据归属的数据属性进行检测，文本类数据的数据属性不同，如人名、地名、物品等实体类属性的数据，又如较大、较小等非实体类属性的数据。对于不同数据属性的文本数据，需要不同的方式进行检测，检测出结果后，将结果反馈给参与方。通过该方式，实现跨数据集联合检测，实现了单一数据源无法检测的文本数据异常。数据归属指在同一个识别数据集中，文本含义类型一致的文本数据的集合，如同一个表中，抬头为“姓名”下的一列数据，便属于一个数据归属，抬头为“年龄”下的一列数据，又属于另一个数据归属。

9、进一步，所述s200包括以下步骤：

10、s210：筛选识别数据集，并将识别数据集进行常规错误处理；

11、s211：将识别数据集中的文本数据中的单元数据进行分词，并通过词句模型，将其转换为词向量，当单元数据存在多个分词时，将词向量构建句向量，得到文本数据的特征向量。

12、进一步，所述s200还包括以下步骤：

13、s220：从词向量中选取部分特征进行加密，将加密后的词向量上传至特征识别模型。

14、将文本数据转换为特征向量，并对特征向量进行加密，加密时选择部分特征进行加密，保留数据特征的同时，保证数据安全性，使各参与方对本文数据可用不可见。

15、进一步，所述s300包括以下步骤：

16、s310：根据单元数据在识别数据集中的位置，赋予单元数据位置坐标；

17、s311：将不同参与方的识别数据集中的位置坐标一致的单元数据逐一进行比对，识别出不一致的单元数据，标记为异常数据；

18、s312：识别不一致的单元数据在不同识别数据集的数据归属中，除异常数据外其他位置坐标一致的单元数据的比对结果是否一致，当一致数量的超过预设阈值时，判断异常数据可识别，否则判断异常数据不可识别；

19、s313：根据异常数据的位置坐标，定位异常数据。

20、进一步，所述s400包括以下步骤：

21、s410：分别从各参与方的异常数据所在数据归属中挑选若干个文本数据，通过实体判断模型判断其是否属于实体类别，若是数据归属的数据属性为实体类属性，若否则为非实体类属性，当为实体类属性时，确定实体类属性的指定类；

22、s411：分别对参与方异常数据进行识别，分别判断其为指定类实体数据的概率，并计算概率均值，根据概率均值计算各参与方概率的离群值，根据离群值，确定具有异常数据的数据集。

23、进一步，所述s400还包括以下步骤：

24、s420：当异常数据的数据归属的数据属性为非实体类数据时，分别对各参与方的异常数据的数据归属的词向量、句向量形成词句向量组；

25、s421：对所有词句向量组进行计算，确定离群值，确定具有异常数据的数据集。

26、进一步，所述s500包括以下步骤：

27、s510：将各参与方的异常数据的离群值在识别数据集中进行标注，反馈给参与方。

本文档来自技高网...

【技术保护点】

1.基于多源数据联合检测的数据集异常识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述S200包括以下步骤：

3.根据权利要求2所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述S200还包括以下步骤：

4.根据权利要求3所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述S300包括以下步骤：

5.根据权利要求4所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述S400包括以下步骤：

6.根据权利要求5所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述S400还包括以下步骤：

7.根据权利要求6所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述S500包括以下步骤：

【技术特征摘要】

1.基于多源数据联合检测的数据集异常识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述s200包括以下步骤：

3.根据权利要求2所述的基于多源数据联合检测的数据集异常识别方法，其特征在于：所述s200还包括以下步骤：

4.根据权利要求3所述的基于多源数据联合检测的数据集异常识别方法，其...

【专利技术属性】
技术研发人员：曾伟，汪榕，文友，简义鹏，苑建坤，
申请(专利权)人：中电科大数据研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人