【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及基于深度学习和simhash的数据分类方法及系统。
技术介绍
1、随着大数据时代的到来,数据量呈爆炸性增长,数据分类技术在各个领域得到了广泛应用。传统的数据分类方法通常依赖于手工设计的特征,难以处理复杂多变的实际问题,如何在海量数据中快速、精确地分类成为亟待解决的问题。
2、现有的数据分类方法主要存在以下缺点:在处理高维度数据时,传统的分类方法可能会遇到性能下降的问题,这是因为高维度数据具有更多的特征和更复杂的结构,需要更复杂的模型和算法来处理,因此对高维度数据的处理能力有限;特征提取是数据分类中的关键步骤之一,传统的特征提取方法可能无法充分挖掘数据的内在特征,导致分类的准确性下降,因此特征提取的准确性不足;不同的数据类型(如文本、图像、音频等)需要针对性地使用不同的分类方法。传统的分类方法可能无法适应各种类型的数据,导致分类效果不佳,因此对不同类型数据的适应性有限;传统的分类方法可能需要大量的计算资源和时间来处理大规模数据,这可能导致分类过程变得缓慢和不可扩展,因此对大规模数据的处理效率低下
...【技术保护点】
1.基于深度学习和SimHash的数据分类方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于深度学习和SimHash的数据分类方法,其特征在于,所述数据预处理包括归一化、去除噪声,以及填充或截断,具体为:
3.根据权利要求1所述的基于深度学习和SimHash的数据分类方法,其特征在于,所述深度学习模型包括CNN模型或LSTM模型中的一种;对于CNN模型,使用卷积层对图像数据进行特征提取;对于LSTM模型,使用LSTM层对序列数据进行特征提取;将最终得到的特征向量表示为x′∈Rd,其中R表示实数集,d为特征向量的维度。
...【技术特征摘要】
1.基于深度学习和simhash的数据分类方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于深度学习和simhash的数据分类方法,其特征在于,所述数据预处理包括归一化、去除噪声,以及填充或截断,具体为:
3.根据权利要求1所述的基于深度学习和simhash的数据分类方法,其特征在于,所述深度学习模型包括cnn模型或lstm模型中的一种;对于cnn模型,使用卷积层对图像数据进行特征提取;对于lstm模型,使用lstm层对序列数据进行特征提取;将最终得到的特征向量表示为x′∈rd,其中r表示实数集,d为特征向量的维度。
4.根据权利要求1所述的基于深度学习和simhash的数据分类方法,其特征在于,所述基于simhash创新的算法具体包括:
5.根据权利要求1...
【专利技术属性】
技术研发人员:洪明睿,刘德志,
申请(专利权)人:江苏君立华域信息安全技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。