一种基于预分类和特征学习抗噪的网络信息检索方法技术

技术编号：21004155 阅读：26 留言：0更新日期：2019-04-30 21:32

本发明专利技术一种基于预分类和特征学习抗噪的网络信息检索方法，可用于包括文本和图像信息的网络信息快速检索。首先使用深度学习训练网络，选用VGG16的16层深度神经网络，用整流线性单元作为激活函数，在每个完全连接层后添加一个压差层。最后一个完全连接的层具有的节点数为N级，使用softmax函数作为其分类函数。网络训练好后，数据集通过训练网络以前向传播的方式提取特征，用softmax从最后一层获得预分类结果，数据预分类结果提供反馈信息，即属于同一类别网络数据的特征应存储在一起。对新来的查询数据，使用余弦距离度量查询信息与查询中属于同一类别的信息之间的相似度。本发明专利技术具有检索效率高，抗噪性能强的优势。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预分类和特征学习抗噪的网络信息检索方法
本专利技术涉及一种基于预分类和特征学习抗噪的网络信息检索方法，可广泛应用于网络图像查找、文本比对和网络公共安全等领域。属于机器学习、信息处理领域。
技术介绍
随着近些年来互联网技术和云技术的飞速发展，网络信息以爆炸式的方式快速增长，如何从这些海量数据中快速有效地检索到用户所关注的网络信息，成为近些年来国内外研究者的热门研究方向。网络信息检索技术，可被广泛应用于医学信息检索、搜索引擎、网络安全监控等与民生息息相关的领域。目前有很多用于网络信息检索的方法，经过对现有文献调研，可将包括文本和图像在内的网络信息检索方法分为两类：一类是基于文字的网络信息检索，该类方法中用户输入需查询的关键词，系统将关键词与数据库中描述网络信息的文字进行匹配，返回匹配度高的文本或者图片。另一类是基于内容的网络信息检索，该类方法中网络信息内容的描述不再依赖于文字标注，而是自动提取信息的中高层语义特征；检索的匹配方式也不再是关键词之间的匹配，而是文本语义内容或者图像语义内容之间的相似度计算，成为目前研究者最青睐的研究方向。传统的基于内容的网络信息检索方法，如BBassett和NAKraft于2013年发表在《IEEEInternationalConferenceonProgramComprehension(电气和电子工程师协会国际会议)》中的论文“Structuralinformationbasedtermweightingintextretrievalforfeaturelocation”，针对文本检索中项的权重计算源自自然语言环境，旨在...

【技术保护点】
1.一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：该方法具体步骤如下：步骤一、采用深度学习训练网络；采用名为VGG16的16层深度神经网络，并使用转移学习来微调预先训练的网络；其中，卷积图层中的权重是固定的，完全连接的图层会被重新训练以输出数据图像的类别；传输模型的前两个完全连接层有512个节点；为避免拟合，使用整流线性单元ReLU作为激活函数，并在每个完全连接层后添加一个压差层；最后一个完全连接的层具有的节点数为N级，并使用softmax函数作为其分类函数；将上述学习任务作为一个多分类问题进行训练，其中最后一层的输出可以被解释为分类概率的估计；所以这个阶段的损失定义为：

【技术特征摘要】
1.一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：该方法具体步骤如下：步骤一、采用深度学习训练网络；采用名为VGG16的16层深度神经网络，并使用转移学习来微调预先训练的网络；其中，卷积图层中的权重是固定的，完全连接的图层会被重新训练以输出数据图像的类别；传输模型的前两个完全连接层有512个节点；为避免拟合，使用整流线性单元ReLU作为激活函数，并在每个完全连接层后添加一个压差层；最后一个完全连接的层具有的节点数为N级，并使用softmax函数作为其分类函数；将上述学习任务作为一个多分类问题进行训练，其中最后一层的输出可以被解释为分类概率的估计；所以这个阶段的损失定义为：其中,W和b是网络参数，n是训练样本的索引，N是训练样本数,yn是标签,xn是网络输出结果；反向梯度损失函数可定义为其中,w和b是网络参数，n是训练样本的索引，N是训练样本数,yn是标签,xn是网络输出结果；利用梯度下降算法根据公式(2)计算w和b，并得到公式(1)损失函数的最优解；对于一个新的查询网络信息xj，它属于类别C的概率(Prob)为：[Prob，C]＝max(WTxj+b)(3)其中，W和b是网络参数；步骤二、特征学习和预分类按照步骤一进行网络训练后，数据集通过训练网络以前向传播的方式提取特征，获得了Fc2层每个网络信息的特征向量，并使用softmax从最后一层获得预分类结果；之后，数据预分类的结果提供反馈信息，即属于同一类别的网络数据的特征应该存储在一起；对于新来的查询数据，使用余弦距离来度量查询信息与查询中属于同一类别的信息之间的相似度；整个过程将分为离线处理阶段和在线处理阶段两个部分。2.根据权利要求1所述的一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：所述离线处理阶段流程为：输入:网络信息数据集输出：数据集相对应的分类过程：S11：对数据预处理，使用中值滤波技术去除噪声；S12：通过卷积神经网络提取数据的...

【专利技术属性】
技术研发人员：潘颋璇，王斌，
申请(专利权)人：天罡网北京安全科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人