基于人工智能的数据蒸馏方法及相关设备技术

技术编号:38335963 阅读:5 留言:0更新日期:2023-08-02 09:16
本申请提出一种基于人工智能的数据蒸馏方法、装置、电子设备及存储介质,基于人工智能的数据蒸馏方法包括:对初始数据集进行随机采样,获得多个原始数据;针对每个所述原始数据,多次向所述原始数据中添加噪声数据以获得每个所述原始数据对应的干扰数据;基于所述干扰数据训练去噪模型;分别将所述初始数据集中的每个初始数据输入所述去噪模型,获得每个所述初始数据对应的预测数据;计算所述预测数据与所述初始数据之间的差异度,依据所述差异度由小到大的顺序选取多个所述初始数据以完成数据蒸馏。该方法可应用于数字医疗领域,能够对医疗数据进行数据蒸馏,从而压缩医疗数据的体量,提升医疗数据的质量。提升医疗数据的质量。提升医疗数据的质量。

【技术实现步骤摘要】
基于人工智能的数据蒸馏方法及相关设备


[0001]本申请涉及人工智能及数字医疗
,尤其涉及一种基于人工智能的数据蒸馏方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,在生产生活中产生的数据体量也愈发庞大。例如,在医疗领域,通常在问诊阶段采集大量医疗图像以辅助医师进行诊疗,从而提升医师诊断效率;目前,还会利用采集大量的医疗相关文本构建医疗知识图谱,为患者提供便捷的就医问诊途径。然而愈发庞大的数据体量对于存储和数据质量通常会造成消极的影响。为了压缩数据体量,提升数据质量,数据蒸馏相关技术受到了越来越广泛的关注。所述数据蒸馏旨在利用机器学习或深度学习模型对采集到的较大体量的数据进行精简,从中提取质量较高的数据,以兼顾数据质量并缩小数据体量。
[0003]目前,现有的数据蒸馏方法通常对机器学习或深度学习模型进行蒸馏,其目标是从一个结构较为复杂的模型中蒸馏知识到结构相对简易的模型上,这种方法在实现过程中通常需要大量计算和计算机的内存占用,进而导致数据蒸馏的效率低下,因此有必要实现兼顾质量和高时效的数据蒸馏方法。

技术实现思路

[0004]鉴于以上内容,有必要提供一种基于人工智能的数据蒸馏方法及相关设备,以解决如何提高数据蒸馏的效率这一技术问题,其中,相关设备包括基于人工智能的数据蒸馏装置、电子设备及存储介质。
[0005]本申请实施例提供一种基于人工智能的数据蒸馏方法,所述方法包括:
[0006]对初始数据集进行随机采样,获得多个原始数据;
[0007]针对每个所述原始数据,多次向所述原始数据中添加噪声数据以获得每个所述原始数据对应的干扰数据;
[0008]基于所述干扰数据训练去噪模型;
[0009]分别将所述初始数据集中的每个初始数据输入所述去噪模型,获得每个所述初始数据对应的预测数据;
[0010]计算所述预测数据与所述初始数据之间的差异度,依据所述差异度由小到大的顺序选取多个所述初始数据以完成数据蒸馏。
[0011]在一些实施例中,所述初始数据集用于存储多个初始数据,所述对初始数据集进行随机采样,获得原始数据,具体包括:
[0012]依据所述初始数据集中初始数据的数量设置每个所述初始数据被选取的概率;
[0013]基于每个所述初始数据被选取的概率对所述初始数据进行随机采样,获得与预设采样数量相等的初始数据作为原始数据。
[0014]在一些实施例中,所述针对每个所述原始数据,多次向所述原始数据中添加噪声
数据以获得每个所述原始数据对应的干扰数据,具体包括:
[0015]针对每个所述原始数据,依据预设的迭代上限设置所述原始数据对应的迭代次数;
[0016]依据所述迭代次数、预设的噪声权重和预设的初始噪声数据计算每次迭代时添加的噪声数据;
[0017]依据所述原始数据和所述每次迭代时添加的噪声数据计算所述原始数据对应的干扰数据。
[0018]在一些实施例中,所述基于所述干扰数据训练去噪模型,具体包括:
[0019]针对每个所述干扰数据,将所述干扰数据和所述迭代次数作为样本数据,将所述每次迭代时添加的噪声数据作为标签数据,将所述样本数据与所述标签数据联合作为训练数据;
[0020]构建初始去噪模型,利用所述训练数据训练所述初始去噪模型,获得去噪模型。
[0021]在一些实施例中,所述利用所述训练数据训练所述初始去噪模型,获得去噪模型,具体包括:
[0022]A,将所述样本数据中的干扰数据作为输入数据,并初始化设置第一计数值为0;
[0023]B,将所述输入数据输入所述初始去噪模型以获得所述输入数据对应的预测噪声;
[0024]C,依据所述预测噪声与所述标签数据计算所述初始去噪模型的损失值,并利用梯度下降法更新所述初始去噪模型,直到所述初始去噪模型的损失值不再变化,停止更新以获得更新去噪模型,并将所述第一计数值增加1;
[0025]D,若所述第一计数值小于所述样本数据中的迭代次数,将所述噪声数据与所述预测噪声的差值作为输入数据,并将所述更新去噪模型作为初始去噪模型,重复步骤B和C,若所述第一计数值等于所述迭代次数,则将所述更新去噪模型作为去噪模型。
[0026]在一些实施例中,所述分别将所述初始数据集中的每个初始数据输入所述去噪模型,获得每个所述初始数据对应的预测数据,具体包括:
[0027]A,将所述初始数据作为输入数据,并初始化设置第二计数值为0;
[0028]B,将所述输入数据输入所述去噪模型,获得所述输入数据对应的噪声数据;
[0029]C,将所述输入数据与所述噪声数据的差值作为更新输入数据,并将所述第二计数值增加1;
[0030]D,若所述第二计数值小于预设的终止阈值,则将所述更新输入数据作为输入数据,并重复执行步骤B和步骤C,若所述第二计数值等于预设的终止阈值,则将所述更新输入数据作为所述初始数据对应的预测数据。
[0031]在一些实施例中,所述计算所述预测数据与所述初始数据之间的差异度,依据所述差异度由小到大的顺序选取多个所述初始数据以完成数据蒸馏,具体包括:
[0032]针对每个所述初始数据,依据预设的差异性度量算法计算所述初始数据与所述预测数据之间的差异度;
[0033]依据预设的知识蒸馏比例按照差异度由小到大的顺序选取初始数据,以作为蒸馏数据。
[0034]本申请实施例还提供一种基于人工智能的数据蒸馏装置,所述装置包括:
[0035]随机采样单元,用于对初始数据集进行随机采样,获得多个原始数据;
[0036]噪声添加单元,用于针对每个所述原始数据,多次向所述原始数据中添加噪声数据以获得每个所述原始数据对应的干扰数据;
[0037]训练单元,用于基于所述干扰数据训练去噪模型;
[0038]预测单元,用于分别将所述初始数据集中的每个初始数据输入所述去噪模型,获得每个所述初始数据对应的预测数据;
[0039]数据蒸馏单元,用于计算所述预测数据与所述初始数据之间的差异度,依据所述差异度由小到大的顺序选取多个所述初始数据以完成数据蒸馏。
[0040]本申请实施例还提供一种电子设备,所述电子设备包括:
[0041]存储器,存储计算机可读指令;及
[0042]处理器,执行所述存储器中存储的计算机可读指令以实现所述基于人工智能的数据蒸馏方法。
[0043]本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述基于人工智能的数据蒸馏方法。
[0044]上述基于人工智能的数据蒸馏方法通过对初始数据集随机采样获得多个原始数据;多次向每个所述原始数据中添加噪声数据以获得每个所述原始数据对应的干扰数据,并基于所述干扰数据训练去噪模型;进而利用所述去噪模型对初始数据进行去噪处理,获得每个所述初始数据对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的数据蒸馏方法,其特征在于,所述方法包括:对初始数据集进行随机采样,获得多个原始数据;针对每个所述原始数据,多次向所述原始数据中添加噪声数据以获得每个所述原始数据对应的干扰数据;基于所述干扰数据训练去噪模型;分别将所述初始数据集中的每个初始数据输入所述去噪模型,获得每个所述初始数据对应的预测数据;计算所述预测数据与所述初始数据之间的差异度,依据所述差异度由小到大的顺序选取多个所述初始数据以完成数据蒸馏。2.如权利要求1所述的基于人工智能的数据蒸馏方法,其特征在于,所述初始数据集用于存储多个初始数据,所述对初始数据集进行随机采样,获得原始数据,具体包括:依据所述初始数据集中初始数据的数量设置每个所述初始数据被选取的概率;基于每个所述初始数据被选取的概率对所述初始数据进行随机采样,获得与预设采样数量相等的初始数据作为原始数据。3.如权利要求1所述的基于人工智能的数据蒸馏方法,其特征在于,所述针对每个所述原始数据,多次向所述原始数据中添加噪声数据以获得每个所述原始数据对应的干扰数据,具体包括:针对每个所述原始数据,依据预设的迭代上限设置所述原始数据对应的迭代次数;依据所述迭代次数、预设的噪声权重和预设的初始噪声数据计算每次迭代时添加的噪声数据;依据所述原始数据和所述每次迭代时添加的噪声数据计算所述原始数据对应的干扰数据。4.如权利要求3所述的基于人工智能的数据蒸馏方法,其特征在于,所述基于所述干扰数据训练去噪模型,具体包括:针对每个所述干扰数据,将所述干扰数据和所述迭代次数作为样本数据,将所述每次迭代时添加的噪声数据作为标签数据,将所述样本数据与所述标签数据联合作为训练数据;构建初始去噪模型,利用所述训练数据训练所述初始去噪模型,获得去噪模型。5.如权利要求4所述的基于人工智能的数据蒸馏方法,其特征在于,所述利用所述训练数据训练所述初始去噪模型,获得去噪模型,具体包括:A,将所述样本数据中的干扰数据作为输入数据,并初始化设置第一计数值为0;B,将所述输入数据输入所述初始去噪模型以获得所述输入数据对应的预测噪声;C,依据所述预测噪声与所述标签数据计算所述初始去噪模型的损失值,并利用梯度下降法更新所述初始去噪模型,直到所述初始去噪模型的损失值不再变化,停止更新以获得更新去噪模型,并将所述第一计数值增加1;D,若所述第一计数值小于所述样本数据中的迭代次数,将...

【专利技术属性】
技术研发人员:王俊侯昶宇
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1