基于深度学习的网页模式识别方法及视觉结构学习方法技术

技术编号:12865210 阅读:96 留言:0更新日期:2016-02-13 14:28
一种基于深度学习的网页模式识别方法,包括以下步骤:以非格式化文本,网页的超文本标记语言的Text源码作为算法输入;将上述源码进行分词;设计堆叠降噪自动编码器,作为网页的特征学习算法;采用神经网络语言模型对SDAE的输入进行初始化;采用分类算法对通过SDAE学习到的文本特征向量进行分类;将上述分类结果进行输出。一种网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。本发明专利技术用自然语言处理的方法处理人工语言,用深度学习的方法及神经网络语言模型对HTML的Text源码进行特征学习,通过本发明专利技术可对各类型网站,如博客、论坛、资讯等的网页模式进行精确识别。

【技术实现步骤摘要】
【专利说明】
本专利技术涉及互联网的
,具体说是一种。
技术介绍
网页识别是数据采集系统及搜索引擎中的关键步骤。目前,对网页识别大多采取如下方法:人工设定识别规则对网页进行识别或者基于其他非深度学习的机器学习方法对网页进行识别。但出于自然语言具有高度抽象性,机器对纯文本的模式识别难以获得理想的识别效果。
技术实现思路
本专利技术要解决的技术问题是提供一种。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的基于深度学习的网页模式识别方法,包括以下步骤: A、非格式化文本,以网页HTML的Text源码作为算法输入; B、将上述网页HTML的Text源码进行预处理; C、设计堆叠降噪自动编码器SDAE,作为网页特征的深度学习算法;采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为本步骤中神经网络语言模型的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量; D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果; E、将上述分类结果进行输出。本专利技术还可以采用以下技术措施: 步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习。步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。采用海量分词算法对网页HTML的Text源码进行分词。采用结巴分词算法对网页HTML的Text源码进行分词。步骤C中,采用神经网络语言模型的文段转向量算法Paragraph2VeC对堆叠降噪自动编码器SDAE的输入向量进行初始化。步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。本专利技术的基于深度学习的网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。本专利技术具有的优点和积极效果是: 本专利技术的中,用自然语言处理的方法处理Text源码,更为关注网页HTML的Text源码的结构而非内容,用深度学习的方法进行文本特征学习,对深度算法SDAE初始化方法的改进:使用Paragraph2Vec算法作为SDAE输入向量的初始化算法,从而取代SDAE惯用的随机初始化方法。从而可以最大化保留文本特征,减少特征丢失,有利于避免SDAE进入局部最优解,有效地保证SDAE的收敛。本专利技术用自然语言处理(Natural Language Processing,简称NLP)的方法处理人工语言(Artificial Language,简称AL),用深度学习(Deep Learning,DL)的方法及神经网络语言模型对HTML的Text源码进行特征学习,通过本专利技术的方法可对各类型网站,如博客、论坛、资讯等的网页模式进行精确识别,识别准确率达99.99%-100%,识别率达全球顶尖水平。【具体实施方式】以下对本技术方案进行详细说明: 本专利技术的基于深度学习的网页模式识别方法,包括以下步骤: A、非格式化文本,以网页超文本语言(HypertextMarkup Language)即HTML的Text源码作为算法输入; B、将上述网页HTML的Text源码进行预处理; C、设计堆叠降噪自动编码器(StackingDenoising Autoencoders),简称SDAE,作为网页特征的深度学习算法;采用神经网络语言模型(Neural Network Language Model),简称NNLM,对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为神经网络语言模型NNLM的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量; D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果; E、将上述分类结果进行输出。在保留自然语言内容的预处理步骤中,需要使用分词,而在仅保留HTML语言标签时,无需分词。步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习,此时无需分词,无需使用分词算法。步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。采用海量分词算法对网页HTML的Text源码进行分词。采用结巴分词算法对网页HTML的Text源码进行分词。选用海量分词算法或结巴分词算法对最终结果影响不大。步骤C中,采用神经网络语言模型NNLM的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。步骤D中采用L2正则随机梯度下降逻辑回归分类器(L2_Stochastic GradientDescent Logistic Regress1n)对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。上述逻辑回归分类器是Softmax回归(η分类)分类中当η=2时的特殊形式。步骤D中设置为二分类模式,两种类别分别对应于网页是导航页或非导航页。如果是多分类模式,如论坛页面/资讯页面/微博页面等等,则采用Softmax回归进行多类别分类。本专利技术的基于深度学习的网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。以上所述,仅是本专利技术的较佳实施例而已,并非对本专利技术作任何形式上的限制,虽然本专利技术已以较佳实施例公开如上,然而,并非用以限定本专利技术,任何熟悉本专业的技术人员,在不脱离本专利技术技术方案范围内,当然会利用揭示的
技术实现思路
作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本专利技术技术方案的内容,依据本专利技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本专利技术技术方案的范围内。【主权项】1.一种基于深度学习的网页模式识别方法,包括以下步骤: A、非格式化文本,以网页HTML的Text源码作为算法输入; B、将上述网页HTML的Text源码进行预处理; C、设计堆叠降噪自动编码器SDAE作为网页特征的深度学习算法;采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为本步骤中神经网络语言模型的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量; D、采用Softmax回归对通过堆叠降噪自动编码器本文档来自技高网
...

【技术保护点】
一种基于深度学习的网页模式识别方法,包括以下步骤:A、非格式化文本,以网页HTML的Text源码作为算法输入;B、将上述网页HTML的Text源码进行预处理;C、设计堆叠降噪自动编码器SDAE作为网页特征的深度学习算法;采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为本步骤中神经网络语言模型的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量;D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果;E、将上述分类结果进行输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:李志杰刘丽丽张作职
申请(专利权)人:天津海量信息技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1