一种基于卷积网络进行网络访问数据进行处理的方法技术

技术编号:18445722 阅读:32 留言:0更新日期:2018-07-14 10:42
本发明专利技术公开了一种基于卷积网络进行网络访问数据进行处理的方法,包括:步骤1)训练卷积神经网络模型;步骤2)获取广告在用户客户端的展示、点击和转换数据;步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。该方法使用cnn网络处理,将其直接作为高维度向量处理,直接将一次输入的向量经过cnn处理后在传入到后续分类器做后续处理。这样解决了后续分类器使用dummy变量过多的问题。而是通过cnn网络将高维度的数据降为低维度的数据,同时不减少信息量。

A method for processing network access data based on convolution network

The invention discloses a method of processing network access data based on the convolution network, including: Step 1) training the convolution neural network model; step 2) obtaining the display, clicking and converting data of the advertisement on the client side; step 3) encoding the display, click and conversion data, and aiming at each user number. The corresponding matrix tensor is generated; step 4) the above matrix tensor is fed into step 1, and the output vectors are obtained in the trained convolution neural network. This method uses CNN network processing, which directly acts as a high dimension vector, and then directly passes an input vector after CNN processing, and then it is introduced to follow up classifier for subsequent processing. This solves the problem of using dummy variables too much for subsequent classifiers. Instead, we can reduce the high dimensional data to low dimensional data through the CNN network without reducing the amount of information.

【技术实现步骤摘要】
一种基于卷积网络进行网络访问数据进行处理的方法
本专利技术属于一种基于卷积网络进行网络访问数据进行处理的方法。
技术介绍
在进行数据分类之前的数据处理中,分类变量和连续变量不同,无法作为一个变量进行数据的分析处理,需要将一个分类变量变成多个dummy变量例如性别变量则变为(0,1)这样表示,同时在使用该变量时候,需要产生2个dummy变量,则最终的分类器表示也是基于dummy变量的。当分类变量的值比较多的时候,则计算量会暴增。因此出现了许多的处理方式。例如使用hash方式。该种方法的原理是将一个变量表示为(0,1,0,0,0,。。。。)后使用hash函数,将所有的数据维度都hash处理,生成一个固定维度的向量,这种方法具有以下的缺点:1,对字段值的处理(分段,聚合),对字段间的关系,都需要人工干预太多,然后在进行分析,主观性太强,且由于字段比较多,取值比较复杂,导致很多其他的字段无法发挥本来的作用,且干预字段过度发挥效果。2,如果使用hash方法,则会损失掉一些有效的信息,虽然使用方便,但是最终分类效果会有影响。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于卷积网络进行网络访问数据进行处理的方法。本专利技术解决上述技术问题所采取的技术方案如下:一种基于卷积网络进行网络访问数据进行处理的方法,包括:步骤1)训练卷积神经网络模型,包括:获取样本数据,该样本数据中包括:用户的性别、客户端ID、广告ID以及访问时间;按照以下的卷积公式进行数据处理:·x(t)和h(t)函数是卷积的变量,p是积分变量,t是使函数h(-p)位移的量,星号*表示卷积;针对本文,卷积矩阵使用的是一个9*9的一个矩阵,对输入数据进行滑动求卷积。这里Mj表示选择的输入maps的集合,每一个输出map会给一个额外的偏置b,但是对于一个特定的输出map,卷积每个输入maps的卷积核是不一样的。也就是说,如果输出特征mapj和输出特征mapk都是从输入mapi中卷积求和得到,那么对应的卷积核是不一样的。选择一个y(t)包含的数据编码信息量最大的卷积公式,以此作为训练好的卷积神经网络模型;步骤2)获取广告在用户客户端的展示、点击和转换数据;步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。其中,步骤3)中,所述矩阵张量中,包括:用户的性别、客户端ID、广告、ID以及访问时间,其格式选择:{(a广告,偏好大小),(b广告,偏好大小)....}。其中,步骤4)之后,还包括:将该向量作为输入,送入分类器中,最终得到用户画像。其中,步骤1)中,设定卷积公式中不同的网络的结构、每个节点的阈值、f的形式;对每一种不同的网络的结构、每个节点的阈值、f的形式所得到的输出结构进行对比,最终得到y(t)包含的数据编码信息量最大的卷积公式。其中,步骤4)中,基于以上卷积神经网络模型,对编码完毕后的数据送入卷积网络中,自动过滤噪声和低信息量的东西,保留了信息量最大的东西,得到一个固定维度的向量。其中,步骤1)中,所述卷积神经网络的训练,具体包括:子步骤11)先训练出卷积核儿,然后再确定输出向量;子步骤12)使用包括{广告,时间,点击率,媒介,地域,。。。。}的向量输入,其中例如广告被处理为一个输入向量(广告1,广告2。。。。)。其中,该用户画像的数据结构为:用户画像(标签,标签权重值)。本专利技术具有以下的技术效果:1.去除主观人工干预;2.准确率大幅度提升;3.通用性特别好,在加入新的字段,新的业务,往往改动非常少(几乎就是零改动)。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明下面结合附图对本专利技术进行详细的描述,以使得本专利技术的上述优点更加明确。其中,图1是卷积神经网络的结构示意图;具体实施方式以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。卷积神经网络用于模式识别的主流是有指导学习网络,无指导学习网络更多的是用于聚类分析。对于有指导的模式识别,由于任一样本的类别是已知的,样本在空间的分布不再是依据其自然分布倾向来划分,而是要根据同类样本在空间的分布及不同类样本之间的分离程度找一种适当的空间划分方法,或者找到一个分类边界,使得不同类样本分别位于不同的区域内。这就需要一个长时间且复杂的学习过程,不断调整用以划分样本空间的分类边界的位置,使尽可能少的样本被划分到非同类区域中。卷积神经网络在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积神经网络加以训练,网络就具有输入输出对之间的映射能力(我觉得神经网络都这样)。卷积神经网络执行的是有导师训练,所以其样本集(训练集)是由形如:(输入向量,理想输出向量)的向量对构成的。所有这些向量对,都应该是来源于网络即将模拟的系统的实际“运行”结果。它们可以是从实际运行系统中采集来的。在开始训练前,所有的权都应该用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权值过大而进入饱和状态,从而导致训练失败;“不同”用来保证网络可以正常地学习。实际上,如果用相同的数去初始化权矩阵,则网络无能力学习。训练算法与传统的BP算法差不多。主要包括4步,这4步被分为两个阶段:第一阶段,向前传播阶段:a)从样本集中取一个样本(X,Yp),将X输入网络;b)计算相应的实际输出Op。在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是计算(实际上就是输入与每层的权值矩阵相点乘,得到最后的输出结果):Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))第二阶段,向后传播阶段a)算实际输出Op与相应的理想输出Yp的差;b)按极小化误差的方法反向传播调整权矩阵。CNN的优点:卷积神经网络CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积神经网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。流的分类方式几乎都是基于统计特征的,这就意味着在进行分辨前必须提取某些特征。然而,显式的特征提取并不容易,在一些应用问题中也并非总是可靠的。卷积神经网络,它避免了显式的特征取样,隐式地本文档来自技高网...

【技术保护点】
1.一种基于卷积网络进行网络访问数据进行处理的方法,其特征在于,包括:步骤1)训练卷积神经网络模型,包括:获取样本数据,该样本数据中包括:用户的性别、客户端ID、广告ID以及访问时间;按照以下的卷积公式进行数据处理:

【技术特征摘要】
1.一种基于卷积网络进行网络访问数据进行处理的方法,其特征在于,包括:步骤1)训练卷积神经网络模型,包括:获取样本数据,该样本数据中包括:用户的性别、客户端ID、广告ID以及访问时间;按照以下的卷积公式进行数据处理:x(t)和h(t)函数是卷积的变量,p是积分变量,t是使函数h(-p)位移的量,星号*表示卷积;选择一个y(t)包含的数据编码信息量最大的卷积公式,以此作为训练好的卷积神经网络模型;步骤2)获取广告在用户客户端的展示、点击和转换数据;步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。2.根据权利要求1所述的基于卷积网络进行网络访问数据进行处理的方法,其特征在于,步骤3)中,所述矩阵张量中,包括:用户的性别、客户端ID、广告、ID以及访问时间,其格式选择:{(a广告,偏好大小),(b广告,偏好大小)....}。3.根据权利要求1或2所述的基于卷积网络进行网络访问数据进行处理的方法,...

【专利技术属性】
技术研发人员:郭威
申请(专利权)人:北京掌阔移动传媒科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1