基于深度学习的网页模式识别方法及视觉结构学习方法技术

技术编号：12865210 阅读：96 留言：0更新日期：2016-02-13 14:28

一种基于深度学习的网页模式识别方法，包括以下步骤：以非格式化文本，网页的超文本标记语言的Text源码作为算法输入；将上述源码进行分词；设计堆叠降噪自动编码器，作为网页的特征学习算法；采用神经网络语言模型对SDAE的输入进行初始化；采用分类算法对通过SDAE学习到的文本特征向量进行分类；将上述分类结果进行输出。一种网页视觉结构学习方法，用机器学习的方法学习HTML的Text源码的结构，并以此学习网页的视觉结构。本发明专利技术用自然语言处理的方法处理人工语言，用深度学习的方法及神经网络语言模型对HTML的Text源码进行特征学习，通过本发明专利技术可对各类型网站，如博客、论坛、资讯等的网页模式进行精确识别。

全部详细技术资料下载

【技术实现步骤摘要】
【专利说明】
本专利技术涉及互联网的
，具体说是一种。
技术介绍
网页识别是数据采集系统及搜索引擎中的关键步骤。目前，对网页识别大多采取如下方法:人工设定识别规则对网页进行识别或者基于其他非深度学习的机器学习方法对网页进行识别。但出于自然语言具有高度抽象性，机器对纯文本的模式识别难以获得理想的识别效果。
技术实现思路
本专利技术要解决的技术问题是提供一种。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的基于深度学习的网页模式识别方法，包括以下步骤: A、非格式化文本，以网页HTML的Text源码作为算法输入； B、将上述网页HTML的Text源码进行预处理； C、设计堆叠降噪自动编码器SDAE，作为网页特征的深度学习算法；采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化，上一步骤中得到的输出作为本步骤中神经网络语言模型的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量； D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类，特征向量的分类结果即为相应网页的识别结果； E、将上述分类结果进行输出。本专利技术还可以采用以下技术措施: 步骤B中，使用Text源码中的HTML语言标签作为原始文本进行机器学习。步骤B中，使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。步骤B中，使用包含自然语言内容及部分HTML语言标签的Text...

【技术保护点】
一种基于深度学习的网页模式识别方法，包括以下步骤：A、非格式化文本，以网页HTML的Text源码作为算法输入；B、将上述网页HTML的Text源码进行预处理；C、设计堆叠降噪自动编码器SDAE作为网页特征的深度学习算法；采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化，上一步骤中得到的输出作为本步骤中神经网络语言模型的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量；D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类，特征向量的分类结果即为相应网页的识别结果；E、将上述分类结果进行输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：李志杰，刘丽丽，张作职，
申请(专利权)人：天津海量信息技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人