基于影响分数的神经网络模型关键数据挖掘方法及应用技术

技术编号:35612118 阅读:19 留言:0更新日期:2022-11-16 15:36
一种基于影响分数的神经网络模型关键数据挖掘方法,通过神经网络模型的训练数据和测试数据求出对应的关键数据,步骤包括:步骤1)取待提取样本数据集,进行数据预处理,获得预处理数据集;步骤2)采用神经网络模型,设置多个检查点,分别跟踪记录训练过程每一次迭代的结果;步骤3)计算每个训练数据的影响分数后排序,选择影响分数排名最大的关键数据。本关键数据挖掘方法适用于基于神经网络模型的图像分类模型、文本分类模型或语音情绪识别模型。本方法可解决模型决策系统不透明的问题,在提升准确率和速度的基础上,优化数据质量以及提升模型收敛速度。升模型收敛速度。升模型收敛速度。

【技术实现步骤摘要】
基于影响分数的神经网络模型关键数据挖掘方法及应用


[0001]本专利技术涉及机器学习
中的数据挖掘技术,具体是一种基于影响分数的神经网络模型关键数据挖掘方法及应用。

技术介绍

[0002]随着深度学习的不断发展,涌现了海量的高级模型,基于机器学习模型的决策系统已被广泛应用于生活的各个方面,并成为不同应用中不可或缺的一部分。
[0003]现有技术中,数据挖掘(Data mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现。
[0004]数据挖掘方法及其应用非常广泛,例如:公告号为CN114896306B的中国专利公开一种“基于人工智能模型的数据挖掘方法及系统”改进了数据挖掘在兴趣挖掘方面的效率和精度;公告号为CN114201973B的中国专利公开一种“基于人工智能的资源池对象数据挖掘方法及系统”确保对象挖掘的准确性,实现设定对象标签的技术匹配性智能提取,从而提高提取完整度和可靠性。
[0005]NLP技术的语音情绪识别模型,在研究自然语言处理NLP技术的语音情绪识别模型时发现,NLP的语音情绪识别模型多采用神经网络模型,其决策系统复杂、不透明,阻碍更好的了解模型的学习和决策方式,以及提升模型。另外,在深度学习发展的过程中,涌现出越来越多的数据,大量的计算资源增加了计算机的负荷以及时间成本,研究者们疲于扩大内存和处理数据。
[0006]所以,需要一种方法,在研究神经网络模型时候,能够提取重要数据的同时,还能够跟踪训练过程,解决模型决策不透明和数据量大的问题。
[0007]随着一些影响函数方法在自然语言处理多项任务中取得良好的效果,研究者们尝试将它们引入到解释模型和数据挖掘中。但是目前并不理想,而且不能有效全面的表达出原语音的主要信息。
[0008]综上所述,研发一种基于影响分数的关键数据挖掘方法,仍是数据挖掘
中急需解决的关键问题。

技术实现思路

[0009]针对现有技术所存在的上述缺点,本专利技术在于提供一种基于影响分数的神经网络模型关键数据挖掘方法。
[0010]本专利技术针对待提取关键数据的数据集,通过跟踪训练数据损失的变化,能够实时地观察和记录每个训练数据对模型决策能力的影响,有效解决了模型决策系统不透明的问题。采用影响分数挖掘重要数据,能够在提升准确率和速度的基础上,有效地优化数据质量以及提升模型收敛速度,具有广泛的应用前景。
[0011]为实现本专利技术的目的,本专利技术提供了如下技术方案:一种基于影响分数的神经网络模型关键数据挖掘方法,通过神经网络模型的训练数据和测试数据求出对应的关键数据,步骤如下:步骤1)对待提取样本数据集,进行数据预处理,获得预处理数据集;步骤2)采用神经网络模型,设置多个检查点,分别跟踪记录训练过程每一次迭代的结果;步骤3)计算每个训练数据的影响分数后排序,选择影响分数排名最大的关键数据;所述步骤3)中,通过计算每个训练数据的影响分数,挖掘关键数据,步骤包括:步骤301)把步骤1)预处理后的数据集分为训练数据和测试数据;步骤302)训练数据的表示序列D
train
=[z1,z2,

,z
m
],测试数据的表示序列D
test
=[z
’1,z
’2,

,z

n
];步骤303)训练实例z对测试实例z

的影响定义为:每当使用训练实例z时由训练过程引起的测试实例z

上的损失的总减少;计算第i个训练实例z
i
对测试实例z

的影响V
i
,即从第t次迭代更新到第t+1次迭代时测试实例的损失减少V
i
=l(w
t
, z

)
‑ꢀ
l(w
t+1
, z

);w表示迭代过程,w
t
表示的第t次迭代,l(*)表示实例的损失;步骤304)设置每次完整的训练为一个检查点;计算每个检查点下,所有训练实例对所有测试实例的影响矩阵Influ(D
train
, D
test
);获取影响矩阵中一个训练实例对每个测试实例的影响并相加,得到该训练实例的影响分数S
i
,表示为S
i

nj=0
V(z
i
, z

j
|D
test
);步骤305)按照步骤304)的方法计算所有训练实例的影响分数,将所有影响分数进行排序,表示为InfSort(z
i
| D
train
)= Sort(S1,S2,

,S
n
);步骤306)在步骤305)的排序中,分别取排名前列的影响分数对应的训练实例作为关键数据,重新输入神经网络模型。
[0012]进一步的,步骤2)中的神经网络模型是CNN模型。
[0013]步骤301)中,使用5折交叉验证,将步骤1)预处理后的数据集平均分为5个部分,每次取其中四份组成训练数据,剩下一份作为测试数据,做五次实验取平均值作为结果,最终把数据集分为80%的训练数据D
train
和20%的测试数据D
test
;步骤302)中,其中n=m/4;在步骤303)中,迭代为:使用一个Batch数据对神经网络模型进行一次参数更新的过程;设置Batch为1,即每次获得一个训练实例对测试实例的影响;在步骤304)中,影响矩阵的行表示测试实例,列表示训练实例;获取矩阵中一个训练实例对所有测试实例的影响,即获取影响矩阵中的一列所有数据,S
i
表示将一列所有数据相加的结果。
[0014]在步骤2)中,设定特定检查点,是因为在训练过程中为了计算影响,需要重播训练过程,则在每个检查点存储一次结果,重播时只要从特定的检查点重新运行即可,极大的降低了运行和时间成本。
[0015]基于影响分数的神经网络模型关键数据挖掘方法是通过计算机系统实现的。该计算机系统是一种基于影响分数的神经网络模型关键数据挖掘系统,它包括互相之间通信的 处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现所述基于影响分数的神经网络模型关键数据挖掘方法。
[0016]上述关键数据挖掘方法可以应用于基于神经网络模型的图像分类模型、文本分类模型或语音情绪识别模型。
[0017]以应用于NLP的语音情绪识别模型来说,语音情绪识别模型是神经网络模型,则基于影响分数的神经网络模型关键数据挖掘方法中的步骤进行如下适应性修改:所述步骤1)中,对待提取音频样本数据集,进行数据预处理,获得预处理数据集;所述步骤2)中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于影响分数的神经网络模型关键数据挖掘方法,通过神经网络模型的训练数据和测试数据求出对应的关键数据,其特征是包括以下步骤:步骤1)对待提取样本数据集,进行数据预处理,获得预处理数据集;步骤2)采用神经网络模型,设置多个检查点,分别跟踪记录训练过程每一次迭代的结果;步骤3)计算每个训练数据的影响分数后排序,选择影响分数排名最大的关键数据;步骤3)中,通过计算每个训练数据的影响分数,挖掘关键数据,步骤包括:步骤301)把步骤1)预处理后的数据集分为训练数据和测试数据;步骤302)训练数据的表示序列D
train
=[z1,z2,

,z
m
],测试数据的表示序列D
test
=[z
’1,z
’2,

,z

n
];步骤303)训练实例z对测试实例z

的影响定义为:每当使用训练实例z时由训练过程引起的测试实例z

上的损失的总减少;计算第i个训练实例z
i
对测试实例z

的影响V
i
,即从第t次迭代更新到第t+1次迭代时测试实例的损失减少V
i
=l(w
t
, z

)
‑ꢀ
l(w
t+1
, z

);w表示迭代过程,w
t
表示的第t次迭代,l(*)表示实例的损失;步骤304)设置每次完整的训练为一个检查点;计算每个检查点下,所有训练实例对所有测试实例的影响矩阵Influ(D
train
, D
test
);获取影响矩阵中一个训练实例对每个测试实例的影响并相加,得到该训练实例的影响分数S
i
,表示为S
i

nj=0
V(z
i
, z

j
|D
test
);步骤305)按照步骤304)的方法计算所有训练实例的影响分数,将所有影响分数进行排序,表示为InfSort(z
i
| D
train
)= Sort(S1,S2,

,S
n
);步骤306)在步骤305)的排序中,分别取排名前列的影响分数对应的训练实例作为关键数据,重新输入神经网络模型。2.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法,其特征是步骤2)中的神经网络模型是CNN模型。3.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法,其特征是步骤301)中,使用5折交叉验证,将步骤1)预处理后的数据集平均分为5个部分,每次取其中四份组成训练数据,剩下一份作为测试数据,做五次实验取平均值作为结果,最终把数据集分为80%的训练数据D
train
和20%的测试数据D
test
;步骤302)中,其中n=m/4;步骤303)中,迭代为:使用一个Batch数据对神经网络模型进行一次参数更新的过程;设置Batch为1,即每次获得一个训练实例对测试实例的影响;步骤304)中,影响矩阵的行表示测试实例,列表示训练实例;获取矩阵中一个训练实例对所有测试实例的影响,即获取影响矩阵中的一列所有数据,S
i
表示将一列所有数据相加的结果。4.根据权利要求1~3任一所述的基于影响分数的神经网络模型关键数据挖掘方法,其特征是通过计算机系统实现基于影响分数的神经网络模型关键数据挖掘方法;计算机系统包括互相之间通信的处理器和存储器,处理器用于从存储器中调取计算机程序,并通过运行计算机程序实现基于影响分数的神经网络模型关键数据挖掘方法。
5.一种权利要求1~3任...

【专利技术属性】
技术研发人员:徐嘉昊张帆
申请(专利权)人:绍兴兰红智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1