基于影响分数的神经网络模型关键数据挖掘方法及应用技术

技术编号：35612118 阅读：19 留言：0更新日期：2022-11-16 15:36

一种基于影响分数的神经网络模型关键数据挖掘方法，通过神经网络模型的训练数据和测试数据求出对应的关键数据，步骤包括：步骤1）取待提取样本数据集，进行数据预处理，获得预处理数据集；步骤2）采用神经网络模型，设置多个检查点，分别跟踪记录训练过程每一次迭代的结果；步骤3）计算每个训练数据的影响分数后排序，选择影响分数排名最大的关键数据。本关键数据挖掘方法适用于基于神经网络模型的图像分类模型、文本分类模型或语音情绪识别模型。本方法可解决模型决策系统不透明的问题，在提升准确率和速度的基础上，优化数据质量以及提升模型收敛速度。升模型收敛速度。升模型收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于影响分数的神经网络模型关键数据挖掘方法及应用

[0001]本专利技术涉及机器学习
中的数据挖掘技术，具体是一种基于影响分数的神经网络模型关键数据挖掘方法及应用。

技术介绍

[0002]随着深度学习的不断发展，涌现了海量的高级模型，基于机器学习模型的决策系统已被广泛应用于生活的各个方面，并成为不同应用中不可或缺的一部分。
[0003]现有技术中，数据挖掘（Data mining）是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现。
[0004]数据挖掘方法及其应用非常广泛，例如：公告号为CN114896306B的中国专利公开一种“基于人工智能模型的数据挖掘方法及系统”改进了数据挖掘在兴趣挖掘方面的效率和精度；公告号为CN114201973B的中国专利公开一种“基于人工智能的资源池对象数据挖掘方法及系统”确保对象挖掘的准确性，实现设定对象标签的技术匹配性智能提取，从而提高提取完整度和可靠性。
[0005]NLP技术的语音情绪识别模型，在研究自然语言处理NLP技术的语音情绪识别模型时发现，NLP的语音情绪识别模型多采用神经网络模型，其决策系统复杂、不透明，阻碍更好的了解模型的学习和决策方式，以及提升模型。另外，在深度学习发展的过程中，涌现出越来越多的数据，大量的计算资源增加了计算机的负荷以及时间成本，研究者们疲于扩大内存和处理数据。
[0006]所以，需要一种方法，在研究...

【技术保护点】

【技术特征摘要】
1.一种基于影响分数的神经网络模型关键数据挖掘方法，通过神经网络模型的训练数据和测试数据求出对应的关键数据，其特征是包括以下步骤：步骤1）对待提取样本数据集，进行数据预处理，获得预处理数据集；步骤2）采用神经网络模型，设置多个检查点，分别跟踪记录训练过程每一次迭代的结果；步骤3）计算每个训练数据的影响分数后排序，选择影响分数排名最大的关键数据；步骤3）中，通过计算每个训练数据的影响分数，挖掘关键数据，步骤包括：步骤301）把步骤1）预处理后的数据集分为训练数据和测试数据；步骤302）训练数据的表示序列D
train
=[z1,z2,
…
,z
m
]，测试数据的表示序列D
test
=[z
’1,z
’2,
…
,z
’
n
]；步骤303）训练实例z对测试实例z
’
的影响定义为：每当使用训练实例z时由训练过程引起的测试实例z
’
上的损失的总减少；计算第i个训练实例z
i
对测试实例z
’
的影响V
i
，即从第t次迭代更新到第t+1次迭代时测试实例的损失减少V
i
=l(w
t
, z
’
)
‑ꢀ
l(w
t+1
, z
’
)；w表示迭代过程，w
t
表示的第t次迭代，l(*)表示实例的损失；步骤304）设置每次完整的训练为一个检查点；计算每个检查点下，所有训练实例对所有测试实例的影响矩阵Influ(D
train
, D
test
)；获取影响矩阵中一个训练实例对每个测试实例的影响并相加，得到该训练实例的影响分数S
i
，表示为S
i
=Σ
nj=0
V(z
i
, z
’
j
|D
test
)；步骤305）按照步骤304）的方法计算所有训练实例的影响分数，将所有影响分数进行排序，表示为InfSort(z
i
| D
train
)= Sort(S1,S2,
…
,S
n
)；步骤306）在步骤305）的排序中，分别取排名前列的影响分数对应的训练实例作为关键数据，重新输入神经网络模型。2.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法，其特征是步骤2）中的神经网络模型是CNN模型。3.根据权利要求1所述的基于影响分数的神经网络模型关键数据挖掘方法，其特征是步骤301）中，使用5折交叉验证，将步骤1）预处理后的数据集平均分为5个部分，每次取其中四份组成训练数据，剩下一份作为测试数据，做五次实验取平均值作为结果，最终把数据集分为80%的训练数据D
train
和20%的测试数据D
test
；步骤302）中，其中n=m/4；步骤303）中，迭代为：使用一个Batch数据对神经网络模型进行一次参数更新的过程；设置Batch为1，即每次获得一个训练实例对测试实例的影响；步骤304）中，影响矩阵的行表示测试实例，列表示训练实例；获取矩阵中一个训练实例对所有测试实例的影响，即获取影响矩阵中的一列所有数据，S
i
表示将一列所有数据相加的结果。4.根据权利要求1～3任一所述的基于影响分数的神经网络模型关键数据挖掘方法，其特征是通过计算机系统实现基于影响分数的神经网络模型关键数据挖掘方法；计算机系统包括互相之间通信的处理器和存储器，处理器用于从存储器中调取计算机程序，并通过运行计算机程序实现基于影响分数的神经网络模型关键数据挖掘方法。
5.一种权利要求1～3任...

【专利技术属性】
技术研发人员：徐嘉昊，张帆，
申请(专利权)人：绍兴兰红智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人