基于深度学习和SimHash的数据分类方法及系统技术方案

技术编号:40095939 阅读:36 留言:0更新日期:2024-01-23 16:56
本发明专利技术公开了基于深度学习和SimHash的数据分类方法及系统,包括:准备数据集并划分为训练集、验证集和测试集;对原始数据进行数据预处理;使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;将特征向量输入基于SimHash创新的算法得到哈希编码;将哈希编码作为深度学习模型的输入,使用优化算法训练深度学习模型;重复以上两步,直至达到预设的迭代次数或准确率要求,则停止训练;使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能。本发明专利技术通过结合深度学习和SimHash算法的快速哈希特性并加以改进,进一步提高了哈希值精度和数据分类的性能,实现了大规模数据的快速、精确分类。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及基于深度学习和simhash的数据分类方法及系统。


技术介绍

1、随着大数据时代的到来,数据量呈爆炸性增长,数据分类技术在各个领域得到了广泛应用。传统的数据分类方法通常依赖于手工设计的特征,难以处理复杂多变的实际问题,如何在海量数据中快速、精确地分类成为亟待解决的问题。

2、现有的数据分类方法主要存在以下缺点:在处理高维度数据时,传统的分类方法可能会遇到性能下降的问题,这是因为高维度数据具有更多的特征和更复杂的结构,需要更复杂的模型和算法来处理,因此对高维度数据的处理能力有限;特征提取是数据分类中的关键步骤之一,传统的特征提取方法可能无法充分挖掘数据的内在特征,导致分类的准确性下降,因此特征提取的准确性不足;不同的数据类型(如文本、图像、音频等)需要针对性地使用不同的分类方法。传统的分类方法可能无法适应各种类型的数据,导致分类效果不佳,因此对不同类型数据的适应性有限;传统的分类方法可能需要大量的计算资源和时间来处理大规模数据,这可能导致分类过程变得缓慢和不可扩展,因此对大规模数据的处理效率低下;传统的分类方法可能本文档来自技高网...

【技术保护点】

1.基于深度学习和SimHash的数据分类方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于深度学习和SimHash的数据分类方法,其特征在于,所述数据预处理包括归一化、去除噪声,以及填充或截断,具体为:

3.根据权利要求1所述的基于深度学习和SimHash的数据分类方法,其特征在于,所述深度学习模型包括CNN模型或LSTM模型中的一种;对于CNN模型,使用卷积层对图像数据进行特征提取;对于LSTM模型,使用LSTM层对序列数据进行特征提取;将最终得到的特征向量表示为x′∈Rd,其中R表示实数集,d为特征向量的维度。

4.根据权利要...

【技术特征摘要】

1.基于深度学习和simhash的数据分类方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于深度学习和simhash的数据分类方法,其特征在于,所述数据预处理包括归一化、去除噪声,以及填充或截断,具体为:

3.根据权利要求1所述的基于深度学习和simhash的数据分类方法,其特征在于,所述深度学习模型包括cnn模型或lstm模型中的一种;对于cnn模型,使用卷积层对图像数据进行特征提取;对于lstm模型,使用lstm层对序列数据进行特征提取;将最终得到的特征向量表示为x′∈rd,其中r表示实数集,d为特征向量的维度。

4.根据权利要求1所述的基于深度学习和simhash的数据分类方法,其特征在于,所述基于simhash创新的算法具体包括:

5.根据权利要求1...

【专利技术属性】
技术研发人员:洪明睿刘德志
申请(专利权)人:江苏君立华域信息安全技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1