一种基于预分类和特征学习抗噪的网络信息检索方法技术

技术编号:21004155 阅读:26 留言:0更新日期:2019-04-30 21:32
本发明专利技术一种基于预分类和特征学习抗噪的网络信息检索方法,可用于包括文本和图像信息的网络信息快速检索。首先使用深度学习训练网络,选用VGG16的16层深度神经网络,用整流线性单元作为激活函数,在每个完全连接层后添加一个压差层。最后一个完全连接的层具有的节点数为N级,使用softmax函数作为其分类函数。网络训练好后,数据集通过训练网络以前向传播的方式提取特征,用softmax从最后一层获得预分类结果,数据预分类结果提供反馈信息,即属于同一类别网络数据的特征应存储在一起。对新来的查询数据,使用余弦距离度量查询信息与查询中属于同一类别的信息之间的相似度。本发明专利技术具有检索效率高,抗噪性能强的优势。

【技术实现步骤摘要】
一种基于预分类和特征学习抗噪的网络信息检索方法
本专利技术涉及一种基于预分类和特征学习抗噪的网络信息检索方法,可广泛应用于网络图像查找、文本比对和网络公共安全等领域。属于机器学习、信息处理领域。
技术介绍
随着近些年来互联网技术和云技术的飞速发展,网络信息以爆炸式的方式快速增长,如何从这些海量数据中快速有效地检索到用户所关注的网络信息,成为近些年来国内外研究者的热门研究方向。网络信息检索技术,可被广泛应用于医学信息检索、搜索引擎、网络安全监控等与民生息息相关的领域。目前有很多用于网络信息检索的方法,经过对现有文献调研,可将包括文本和图像在内的网络信息检索方法分为两类:一类是基于文字的网络信息检索,该类方法中用户输入需查询的关键词,系统将关键词与数据库中描述网络信息的文字进行匹配,返回匹配度高的文本或者图片。另一类是基于内容的网络信息检索,该类方法中网络信息内容的描述不再依赖于文字标注,而是自动提取信息的中高层语义特征;检索的匹配方式也不再是关键词之间的匹配,而是文本语义内容或者图像语义内容之间的相似度计算,成为目前研究者最青睐的研究方向。传统的基于内容的网络信息检索方法,如BBassett和NAKraft于2013年发表在《IEEEInternationalConferenceonProgramComprehension(电气和电子工程师协会国际会议)》中的论文“Structuralinformationbasedtermweightingintextretrievalforfeaturelocation”,针对文本检索中项的权重计算源自自然语言环境,旨在用于非结构化文档,因此可能不适合与源代码一起使用,提出了一种新的项加权方法,使用源代码中的结构信息分配项的权重,完成特征定位。此外,AKJAVailaya于1996年发表在《PatternRecognition(模式识别)》中的论文“ImageRetrievalusingColorandShape”,选用纹理和颜色等特征作为图像的特征表示,该方法依赖于可以挖掘视觉线索的图像特征,如颜色和形状。与常规方法不同,该方法不提取单一特征,而是将颜色特征和形状特征结合起来作为图像的特征描述。尽管基于内容的网络信息检索方法已经取得了较大的成果,但是这些方法在提取网络信息的特征时,都没有考虑数据的分布信息,这些信息往往表征了网络数据的中高层语义含义,对于网络信息检索非常重要。
技术实现思路
本专利技术的目的在于针对现有方法的不足,提出一种基于预分类和特征学习抗噪的网络信息检索方法,本专利技术的特征从数据(包括文本和图像类网络数据)中学习得出。本专利技术一种基于预分类和特征学习抗噪的网络信息检索方法,通过下述技术方案来实现,具体步骤如下:步骤一、采用深度学习训练网络;深度学习模型一般由卷积层和全连接层组成,其中最后的完整连接层是softmax分类器。卷积神经网络体系结构的形式对于要实现的功能很重要。本专利技术使用名为VGG16的16层深度神经网络,它在多种任务上具有良好的分类性能。如果卷积神经网络包含大量参数,则从头开始训练模型可能导致过拟合。本专利技术使用转移学习来微调预先训练的网络。在本专利技术的方法中,卷积图层中的权重是固定的,完全连接的图层会被重新训练以输出数据图像的类别。传输模型的前两个完全连接层有512个节点。为了避免拟合,本专利技术使用整流线性单元(ReLU)作为激活函数,并在每个完全连接层后添加一个压差层。最后一个完全连接的层具有的节点数为N级,并使用softmax函数作为其分类函数。本专利技术将上述学习任务作为一个多分类问题进行训练,其中最后一层的输出可以被解释为分类概率的估计。所以这个阶段的损失定义为:其中,w和b是网络参数,n是训练样本的索引,N是训练样本数,yn是标签,xn是网络输出结果。反向梯度损失函数可定义为其中,w和b是网络参数,n是训练样本的索引,N是训练样本数,yn是标签,xn是网络输出结果。利用梯度下降算法根据公式(2)计算w和b,并得到公式(1)损失函数的最优解。对于一个新的查询网络信息xj,它属于类别C的概率(Prob)为:[Prob,C]=max(WTxj+b)(3)其中,W和b是网络参数。步骤二、特征学习和预分类按照步骤一进行网络训练后,数据集通过训练网络以前向传播的方式提取特征,本专利技术获得了Fc2层(卷积神经网络其中一层)每个网络信息的特征向量,并使用softmax从最后一层获得预分类结果。之后,数据预分类的结果提供反馈信息,即属于同一类别的网络数据的特征应该存储在一起。对于新来的查询数据,本专利技术使用余弦距离来度量查询信息与查询中属于同一类别的信息之间的相似度。整个过程将分为离线处理阶段和在线处理阶段两个部分:S1、离线处理阶段算法流程为:输入:网络信息数据集输出:数据集相对应的分类过程:S11:对数据预处理,使用中值滤波技术去除噪声。S12:通过卷积神经网络提取数据的特征,本专利技术采用的卷积神经网络为VGG16,参数权重为其在WikipediaLinksdata和ImageNet上训练好的数值,其中,WikipediaLinksdata用于文本信息检索,具体参数包括:动量为0.9,学习率为0.02,重量衰减为4*10-5;ImageNet用于图像信息检索,具体参数包括:动量为0.9,学习率为0.01,重量衰减为5*10-5。卷积神经网络每一层都可表示不同的特征图,实验证明全连接层中间特征效果最好,因此本专利技术提取全连接层Fc2特征。S13:数据通过卷积神经网络后送入softmax分类器,对网络信息数据集进行分类,并将分类结果反馈到特征库中。S14:按类别反馈对步骤S13提取的数据库特征按类别进行存储。S2、在线处理阶段算法流程为:输入:查询网络信息输出:与查询信息相似的N条信息过程:S21:对查询网络数据信息预处理,使用中值滤波技术去除噪声。S22:通过卷积神经网络提取查询数据的特征,和离线处理阶段一样,提取全连接层Fc2特征。S23:将查询信息送入softmax分类器进行预分类,返回分类结果。S24:根据步骤S23查询信息的分类反馈,进行相似度量。具体为:寻找在数据集中的同一类别的特征库,计算该类别下网络数据集与查询信息的相似度,本专利技术选择3种相似度度量方式,设De(x,y)为两条网络查询信息的欧氏距离相似度,Dc(x,y)为两条查询信息的切比雪夫距离相似度,cos(θ)为两条查询信息的余弦距离相似度,xi和yi分别表示两条查询信息的特征向量,其相似度度量公式如下所示:S25:根据步骤S24的计算结果,按相似度排序输出最相似的前N条信息。本专利技术的优点和功效在于:(1)将信息检索的框架分为离线特征学习和在线网络信息检索两个阶段,可以满足实时检索的需求。(2)通过卷积神经网络从网络数据中学习出信息的特征,因此,提取的特征包含网络信息的中高层语义含义,具有较好的抗噪声能力。(3)提出一种深度学习预分类与网络信息检索相融合的方法,通过softmax分类器对数据预分类,并将预分类结果反馈给特征集合。该方法可同时提高检索精度和检索效率。附图说明图1为基于预分类和特征学习的网络信息检索方法流程图。表1为实施例图像库的图像检索准确率。具体实施方式以下结合具体实施本文档来自技高网
...

【技术保护点】
1.一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:该方法具体步骤如下:步骤一、采用深度学习训练网络;采用名为VGG16的16层深度神经网络,并使用转移学习来微调预先训练的网络;其中,卷积图层中的权重是固定的,完全连接的图层会被重新训练以输出数据图像的类别;传输模型的前两个完全连接层有512个节点;为避免拟合,使用整流线性单元ReLU作为激活函数,并在每个完全连接层后添加一个压差层;最后一个完全连接的层具有的节点数为N级,并使用softmax函数作为其分类函数;将上述学习任务作为一个多分类问题进行训练,其中最后一层的输出可以被解释为分类概率的估计;所以这个阶段的损失定义为:

【技术特征摘要】
1.一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:该方法具体步骤如下:步骤一、采用深度学习训练网络;采用名为VGG16的16层深度神经网络,并使用转移学习来微调预先训练的网络;其中,卷积图层中的权重是固定的,完全连接的图层会被重新训练以输出数据图像的类别;传输模型的前两个完全连接层有512个节点;为避免拟合,使用整流线性单元ReLU作为激活函数,并在每个完全连接层后添加一个压差层;最后一个完全连接的层具有的节点数为N级,并使用softmax函数作为其分类函数;将上述学习任务作为一个多分类问题进行训练,其中最后一层的输出可以被解释为分类概率的估计;所以这个阶段的损失定义为:其中,W和b是网络参数,n是训练样本的索引,N是训练样本数,yn是标签,xn是网络输出结果;反向梯度损失函数可定义为其中,w和b是网络参数,n是训练样本的索引,N是训练样本数,yn是标签,xn是网络输出结果;利用梯度下降算法根据公式(2)计算w和b,并得到公式(1)损失函数的最优解;对于一个新的查询网络信息xj,它属于类别C的概率(Prob)为:[Prob,C]=max(WTxj+b)(3)其中,W和b是网络参数;步骤二、特征学习和预分类按照步骤一进行网络训练后,数据集通过训练网络以前向传播的方式提取特征,获得了Fc2层每个网络信息的特征向量,并使用softmax从最后一层获得预分类结果;之后,数据预分类的结果提供反馈信息,即属于同一类别的网络数据的特征应该存储在一起;对于新来的查询数据,使用余弦距离来度量查询信息与查询中属于同一类别的信息之间的相似度;整个过程将分为离线处理阶段和在线处理阶段两个部分。2.根据权利要求1所述的一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:所述离线处理阶段流程为:输入:网络信息数据集输出:数据集相对应的分类过程:S11:对数据预处理,使用中值滤波技术去除噪声;S12:通过卷积神经网络提取数据的...

【专利技术属性】
技术研发人员:潘颋璇王斌
申请(专利权)人:天罡网北京安全科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1