数据质量情景检验方法、装置、设备及存储介质制造方法及图纸

技术编号：44976010 阅读：16 留言：0更新日期：2025-04-15 16:57

本发明专利技术涉及数据处理技术领域，公开了一种数据质量情景检验方法、装置、设备及存储介质，获取不同情景的初始多模态数据，对初始多模态数据预处理；构建情境模型库，将预处理后的初始多模态数据与情境模型库进行匹配，确定预处理后的初始多模态数据是否符合情境要求，若符合则得到目标多模态数据；采用含有多任务学习的生成对抗网络，利用共享的网络结构对目标多模态数据从多维度进行质量评估，并对目标多模态数据在每个维度上进行打分，得到最终质量评分；采用变分自编码器对目标多模态数据进行质量优化，得到优化后的目标多模态数据；对优化后的目标多模态数据生成对应的质量报告，并输出；本发明专利技术能够有效提升数据在实际应用中的表现和适用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体涉及一种数据质量情景检验方法、装置、设备及存储介质。

技术介绍

1、随着生成式人工智能技术的不断发展，特别是在自然语言处理(nlp)、图像生成、语音合成等领域，生成模型已广泛应用于内容创作、自动化写作、广告制作、图像设计等多个领域，生成式ai能够基于训练数据和特定的输入生成新的数据，这些生成数据在丰富性和创造性上具有极大的优势，但它们也存在着质量不一致、错误产生等问题，尤其是在生成数据应用到实际情境时，质量控制成为一项挑战。

技术实现思路

1、本专利技术的目的是为了解决上述问题，设计了一种数据质量情景检验方法、装置、设备及存储介质。

2、本专利技术第一方面提供一种数据质量情景检验方法，所述数据质量情景检验方法包括：

3、从各种数据源收集数据，获取不同情景对应的初始多模态数据，通过标准化处理和去噪处理完成对所述初始多模态数据的预处理，得到预处理后的初始多模态数据；

4、根据数据的应用领域和业务需求，定义不同的情境并生成相应的情境数据，基于所述情境数据构建情境模型库，并将预处理后的初始多模态数据与情境模型库进行匹配，确定预处理后的初始多模态数据是否符合情境要求，若符合则得到目标多模态数据；

5、采用含有多任务学习的生成对抗网络，利用共享的网络结构对所述目标多模态数据从多维度进行质量评估，得到质量评估结果，并根据所述质量评估结果对所述目标多模态数据在每个维度上进行打分，结合加权算法得到最终质量评分；

7、对优化后的目标多模态数据生成对应的质量报告，并输出优化后的目标多模态数据和质量报告。

8、可选的，在本专利技术第一方面的第一种实现方式中，所述根据数据的应用领域和业务需求，定义不同的情境并生成相应的情境数据，基于所述情境数据构建情境模型库，包括：

9、根据数据的应用领域和业务需求，采用k-means聚类算法对得到的数据进行初步分析，将数据点分配到不同的聚类中，每个聚类代表一种情境类别；

10、基于k-means聚类算法确定的情境类别，运用决策树算法提取聚类后的数据中关键特征，通过不断地分裂节点，选择最优的特征和分裂点，使得每个子节点中的数据属于同一情境类别，根据决策树的结构和节点的特征定义不同的情境并生成相应的情境数据，决策树的信息增益计算公式为：

11、

12、式中，b表示数据集，a表示情境类别，values(b)表示情境类别的所有可能取值，bv表示情境类别取值为v的子集，entropy(b)表示数据集的熵；

13、利用回归分析算法对所述情境数据进行预测和扩展，以构建情境模型库m＝f(p,q)→o，其中f表示根据应用领域p和业务需求q生成情境数据o并构建情境模型库的函数过程。

14、可选的，在本专利技术第一方面的第二种实现方式中，所述根据数据的应用领域和业务需求，采用k-means聚类算法对得到的数据进行初步分析，将数据点分配到不同的聚类中，每个聚类代表一种情境类别，包括：

15、获取根据数据的应用领域和业务需求得到的样本数据点，得到数据集合，s，根据样本数据点的距离计算出每个样本数据点的密度参数，找到密度最大的样本点作为初始聚类中心；

16、计算样本数据点的加权平均欧氏距离，并以此为半径，位于此区域内的点构成第一个聚类集合s1：

17、

18、式中，dwm表示样本数据点的加权平均欧氏距离，n表示样本点的数量，dw(xi,xj)表示两个样本点xi和xj之间的加权欧氏距离，m表示特征的数量；

19、令s＝s-s1，在剩下数据中找到密度参数最大的样本点作为聚类中心，以样本点的加权平均欧氏距离为半径，得到第二个聚类集合s2，重复迭代直到找到k个聚类中心；

20、计算每个样本数据点到选取k个初始中心的距离，把样本数据点划分到最近的簇中，构成初始划分，计算初始划分的每一类均值，作为该类的新中心，由误差平方公式计算得出聚类误差平方和：

21、

22、式中，e表示聚类误差平方和，k表示聚类的数量，cj表示第j个聚类，xi∈cj表示xi是以cj为中心；

23、重复迭代，比较本次划分的误差平方和与上一次划分的误差平方和，若二者差的绝对值不超过10-5，停止迭代，输出最终的聚类划分结果。

24、可选的，在本专利技术第一方面的第三种实现方式中，所述将预处理后的初始多模态数据与情境模型库进行匹配，确定预处理后的初始多模态数据是否符合情境要求，若符合则得到目标多模态数据，包括：

25、在将预处理后的初始多模态数据与情境模型库进行匹配的过程中，对于图像数据采用sift算法提取图像的关键特征，对于文本数据采用自然语言处理技术将文本转化为数值向量；

26、在分别获取图像数据的关键特征以及文本数据转化后的数值向量后，采用拼接融合方式融合图像关键特征向量和文本数值向量得到融合后的特征向量fdusion；

27、采用余弦相似度算法计算融合特征向量ffusion与情境模型库中各个情境模式对应的特征向量之间的相似度：

28、

29、式中，fsituation表示情境模型库中各个情境模式对应的特征向量，·表示向量点积运算，||ffusion||和‖fsituation‖分别表示对应向量的模；

30、将计算得到的融合特征向量ffusion输入到svm分类器中，采用svm分类器输出对应的类别标签，以判断预处理后的初始多模态数据是否符合情境要求，将符合情境要求对应的数据作为目标多模态数据进行提取并输出，其中类别标签0表示不符合情境要求，类别标签1表示符合情境要求。

31、可选的，在本专利技术第一方面的第四种实现方式中，所述采用含有多任务学习的生成对抗网络，利用共享的网络结构对所述目标多模态数据从多维度进行质量评估，得到质量评估结果，包括：

32、构建含有多任务学习的生成对抗网络，该生成对抗网络由生成器和判别器组成，对判别器的权重进行谱归一化，对于判别器的每一层权重矩阵w，计算权重矩阵w谱范数：

33、

34、将权重矩阵w除以谱范数：

35、

36、式中，‖wh‖2表示向量wh的欧氏范数，wsn表示经过谱归一化处理后的权重矩阵；

37、在生成对抗网络中使用均方误差损失函数评估图像任务，使用交叉熵损失函数评估文本语法正确性任务，总损失函数为：

38、

39、式中，lgan(g,d)表示生成对抗网络的损失函数，多任务损失函数，λi表示平衡不同任务损失的权重参数；

40、将目标多模态数据输入到生成对抗网络中，生成对抗网络不同输出分支对应不同维度的质量评估结果。

41、可选的，在本专利技术第一本文档来自技高网...

【技术保护点】

1.一种数据质量情景检验方法，其特征在于，所述数据质量情景检验方法包括：

2.如权利要求1所述的一种数据质量情景检验方法，其特征在于，所述根据数据的应用领域和业务需求，定义不同的情境并生成相应的情境数据，基于所述情境数据构建情境模型库，包括：

3.如权利要求2所述的一种数据质量情景检验方法，其特征在于，所述根据数据的应用领域和业务需求，采用K-Means聚类算法对得到的数据进行初步分析，将数据点分配到不同的聚类中，每个聚类代表一种情境类别，包括：

4.如权利要求1所述的一种数据质量情景检验方法，其特征在于，所述将预处理后的初始多模态数据与情境模型库进行匹配，确定预处理后的初始多模态数据是否符合情境要求，若符合则得到目标多模态数据，包括：

5.如权利要求1所述的一种数据质量情景检验方法，其特征在于，所述采用含有多任务学习的生成对抗网络，利用共享的网络结构对所述目标多模态数据从多维度进行质量评估，得到质量评估结果，包括：

6.如权利要求1所述的一种数据质量情景检验方法，其特征在于，所述根据所述质量评估结果对所述目标多模态数据

7.如权利要求1所述的一种数据质量情景检验方法，其特征在于，所述当最终质量评分低于预设阈值时，采用变分自编码器对所述目标多模态数据进行质量优化，得到优化后的目标多模态数据，包括：

8.一种数据质量情景检验装置，其特征在于，所述数据质量情景检验装置包括：

9.一种数据质量情景检验设备，其特征在于，所述数据质量情景检验设备包括存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述数据质量情景检验设备执行如权利要求1-7中任一项所述的数据质量情景检验方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述数据质量情景检验方法的各个步骤。

...

【技术特征摘要】

1.一种数据质量情景检验方法，其特征在于，所述数据质量情景检验方法包括：

3.如权利要求2所述的一种数据质量情景检验方法，其特征在于，所述根据数据的应用领域和业务需求，采用k-means聚类算法对得到的数据进行初步分析，将数据点分配到不同的聚类中，每个聚类代表一种情境类别，包括：

6...

【专利技术属性】
技术研发人员：罗祥麟，王心醉，孔飞，岳月，李鹏飞，
申请(专利权)人：季华实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人