一种融合多头注意力的WGAN学生数据生成算法和装置制造方法及图纸

技术编号：41324681 阅读：3 留言：0更新日期：2024-05-13 15:02

本公开实施例提供一种融合多头注意力的WGAN学生数据生成算法和装置，涉及深度学习技术、教育信息科学与技术领域。该算法的具体实施方式包括：构建学生交叉学科能力和创新能力的评价指标体系，收集与评价指标体系对应的1000个学生的原始数据；对原始数据进行预处理，得到真实数据；随机生成服从标准正态分布的噪声数据，将正态分布噪声数据输入到待训练的改进生成模型；训练确定训练后的改进生成模型，并生成数据，转化为表格数据，作为生成的用于评价学生交叉学科能力和创新能力的数据。该实施方式生成的数据数值与真实数据相似性较高，提高了生成数据的质量和多样性，网络结构简单，生成速度较快，消耗的计算资源和训练成本较低。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及深度学习技术、教育信息科学与，尤其涉及一种融合多头注意力的wgan学生数据生成算法和装置。

技术介绍

1、知识经济时代的到来，对交叉学科人才和创新应用人才的渴求成为高等教育改革的重心。交叉学科集创新性、综合性、多样性于一身，能够在经济发展中发挥举足轻重的作用。相应地，如何提取影响交叉学科能力和创新能力的关键因素，对学生的交叉学科能力和创新能力进行评价是目前研究的重点和难点，目前尚未出现公开的较为合理的评价学生交叉学科和创新能力的指标体系。

2、进一步地，数据作为战略性和基础性资源的价值已经得到社会的广泛认可，无论是数据收集、分析还是使用，都已经成为现代社会各行各业的核心工作。随着人工智能技术的蓬勃发展，高质量数据在数据的收集、分析、使用过程中的重要性愈发凸显。

3、由此，交叉学科能力和创新能力的评价不仅需要合理的评价指标体系，同时与用于评价的学生数据质量密不可分，受限于学生数据的隐私安全，通常无法获得数量足够多且质量足够高的评价数据，因此，如何生成高质量的学生数据具有重要的现实研究意义。生成的数据实质是一种合成数据，用于解决数据不足、获取难度大等问题，通过计算机模拟或算法生成的带有注释信息的合成数据，可以模拟实际情况，补充原始数据的不足，提高数据质量和数量，并有效降低数据采集和处理的成本，提供现实世界难以或无法采集的数据，提高数据多样性和提升训练速度。

4、生成数据技术的研究主要涉及两个方面，一是生成数据样本，二是对生成的数据样本进行评价，生成的数据样本具有以下四个共性。

>5、(1)统计特性类似。生成的数据样本通常与原始数据样本具有相似的统计特性。包括数据的分布、均值、方差、相关性等方面。生成的数据样本的统计特性应该能够反映出原始数据样本的一些重要属性，以便在应用中能够有效地模拟和代表原始数据。

6、(2)标签信息类似。生成的数据样本通常会保留原始数据样本的类别或标签信息。生成的数据样本在类别分布或标签分布上应与原始数据样本类似，以确保生成数据的可靠性。

7、(3)多样性和变化性。生成的数据样本应该具有一定的多样性和变化性。这意味着生成数据样本不应该是简单的重复或复制，而应该能够生成具有一定差异性的样本。生成数据样本的多样性和变化性对于模型的泛化能力和鲁棒性至关重要。

8、(4)上下文一致性。生成的数据样本应该与原始数据样本在上下文中保持一致，包括生成数据样本与原始数据样本在场景、背景、特征之间的一致性。生成数据样本应该能够反映原始数据样本所在的特定上下文环境，从而在应用中能够正确地代表和模拟真实场景。

9、数据生成方法可以分为传统方法和深度学习方法两类。传统方法例如概率图模型、隐变量模型和基于物理模型的仿真等方法，普遍具有较好的可解释性以及对小规模数据和简单问题表现较好的特点，但传统方法生成的数据缺乏多样性、质量不高。在数据生成方面，深度生成模型相比传统数据生成方法具有优越性，深度生成模型利用某种概率密度分布的数据来拟合所需样本数据分布的生成，深度生成模型不需要显式的特征提取，能够学习复杂数据的表示，适用于大规模数据和高维数据，生成结果质量较高，模型性能较好。因此，现有的数据生成方法通常是利用深度生成模型来生成数据，可用性高且与现实世界中任何个体之间不存在映射关系，将其用于访问、共享和使用时，可以从源头解决数据的隐私泄露问题。相对于传统数据生成技术，深度生成模型在数据的可用性和隐私性方面综合表现最好。因此，深度生成模型被认为是一种有效解决数据量低且隐私性要求高问题的方案。

10、深度学习近年来发展迅猛，在诸多领域都有着惊人的表现，借助深度学习强大的表征能力，数据生成的质量在不断提高。采用深度学习算法的生成模型属于无监督学习，能够准确学习高维数据的潜在特征分布，经过训练后的模型可以生成与真实数据相同分布的数据。下面给出六种经典且常用的数据生成模型，分别为vae(variational autoencoder，变分自编码器)、gan(generative adversarial network，生成对抗网络)、ctgan(conditional tabular gan，条件生成对抗网络)、wgan(wasserstein gan，wasserstein生成对抗网络)、wgan-gp(wasserstein gan with gradient penalty，带有梯度惩罚的wgan)以及tablegan(table-gan，表格gan)。

11、vae通过学习原始数据的潜在连续编码空间与特征映射，进而在输出端重构出原始数据，优点在于引入隐变量对模型进行有效推理，训练稳定，但是生成的样本往往模糊不清，并且无法生成离散数据。

12、gan是2014年由goodfellow等人提出的一种网络模型，是一种生成数据的重要模型，其目的是通过给定的分布生成特定的样本数据。gan由生成器和判别器构成，训练过程中生成器和判别器之间会进行互相博弈，使得生成数据的质量越来越高。gan能够从大量无标签数据中无监督地学习到各种数据特征，在数据生成领域具有较强的通用性。gan从训练数据中抽取有限的真实样本，估计数据的真实分布，并生成新的样本(合成数据)。合成数据在数据特征和整体分布方面与原始数据极为相似，能够取得与原始数据相近的表现。由于合成数据是由计算机程序创建，不包含个人身份信息，因此，具有独特的隐私保护作用。gan能够创建比真实世界更丰富的合成数据，确保了数据的多样性。gan还可以创建现实世界中难以收集或无法采集的数据，解决数据匮乏、数据质量差等问题。相对于传统的数据生成方法，gan生成的样本在多样性和真实性上具有显著优势，并且可以有效地解决类不平衡问题。gan突出的生成能力不仅可用于生成各类图像和自然语言数据，还启发和推动了各类半监督学习和无监督学习方法的发展。gan由于高效的性能和在表示经验数据方面的灵活性成为数据生成的主流方法，推动了数据生成在众多领域的发展。目前，gan及其变体模型已应用于图像生成、图像绘画、文本生成、医学图像处理、语义分割等领域。然而，gan在数据生成领域的应用还远不止于此。近年来，合成数据的可用性及其能够解决的问题受到广泛关注，gan作为一种灵活、可扩展且数据分布拟合能力强大的合成数据生成框架，吸引了大量的研究人员。利用合成数据来解决人工智能发展和应用中遇到的隐私法律法规约束和数据孤岛问题，已经成为一个重要的研究方向。

13、在gan中，生成器通过在样本中加入各种噪声，来模拟生成各种数据分布，主要目的是使生成的数据在判别器中的概率分布与真实数据在判别器中的概率分布尽量保持一致，判别器类似于一个二分类器，用于判别输入的数据的真伪，每一个输入数据都有一个对应的分数，当输入数据为真实数据时，输出的分数应当趋于1；反之，当输入的数据为生成数据(即合成数据)时，输出的分数应当趋于0，实现真实数据与生成数据的区分。

14、gan通过对抗训练，生成器网络生成逼真的数据样本，判别器区分生成样本和真实样本，优本文档来自技高网...

【技术保护点】

1.一种融合多头注意力的WGAN学生数据生成算法，其特征在于，包括：

2.如权利要求1所述的融合多头注意力的WGAN学生数据生成算法，其特征在于，所述评价指标体系包括一级评价指标、二级评价指标和三级评价指标；

3.如权利要求1所述的融合多头注意力的WGAN学生数据生成算法，其特征在于，对所述原始数据进行预处理，得到真实数据，包括：

4.如权利要求1所述的融合多头注意力的WGAN学生数据生成算法，其特征在于，所述的生成用于评价学生交叉学科能力和创新能力的数据，包括：

5.一种融合多头注意力的WGAN学生数据生成装置，其特征在于，包括：

6.一种电子设备，包括：

7.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的融合多头注意力的WGAN学生数据生成算法。

【技术特征摘要】

1.一种融合多头注意力的wgan学生数据生成算法，其特征在于，包括：

2.如权利要求1所述的融合多头注意力的wgan学生数据生成算法，其特征在于，所述评价指标体系包括一级评价指标、二级评价指标和三级评价指标；

3.如权利要求1所述的融合多头注意力的wgan学生数据生成算法，其特征在于，对所述原始数据进行预处理，得到真实数据，包括：

4.如权利要求1所述的融合多头注...

【专利技术属性】
技术研发人员：张永梅，齐昊宇，郭奥，吴爱燕，张睿，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人