基于深度学习的网页区域识别算法制造技术

技术编号：13167949 阅读：100 留言：0更新日期：2016-05-10 12:56

一种基于深度学习的网页区域识别算法，包括以下步骤：A、以格式化文本，网页的超文本标记语言HTML的源码作为算法输入；B、通过HTML2XML算法提取出网页区域的视觉特征向量；C、通过HTML2XML算法提取出网页区域的文本内容，并通过神经网络语言模型学习出文本特征向量；D、以堆叠降噪自动编码器SDAE作为特征学习方法，将上述特征向量作为SDAE的输入向量；E、使用分类算法对SDAE的输出向量进行分类，对向量的分类结果即为该向量所对应的网页区域的识别结果。通过本发明专利技术可对网页内的标题区、正文区、导航区等视觉区域进行准确识别，识别准确率达99.99%-100%。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息采集的
，具体说是一种。
技术介绍
网页区域识别对搜索引擎构建、网络信息检索、网络数据采集及网络知识发现至关重要。目前，网页区域识别通常采取如下方法:人工设定识别规则对网页区域进行识别或者基于其他非深度学习的机器学习方法对网页区域进行识别。对网页区域识别而言，区域内文本的视觉特征(文字的大小、颜色、是否加粗等)及区域本身的视觉特征(位置、底色、是否有边框等)至关重要。纯文本无法反映这些视觉特征，且自然语言具有高度抽象性，仅对纯文本进行特征提取及模式识别，难以提取出足够的特征，获得理想的识别效果。
技术实现思路
本专利技术要解决的技术问题是提供一种。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的，包括以下步骤: A、格式化文本:以网页的HTML源码作为算法输入； B、视觉特征处理: 将HTML转化为XML，提取网页内不同区域的视觉特征;选择上述视觉特征，得到视觉特征向量;将视觉特征向量进行归一化，得到归一化后的视觉特征向量； C、文本特征处理: 将HTML转化为XML，提取网页区域内的文本;通过分词算法将文本特征序列化;通过神经网络语言模型学习出文本特征向量； D、将堆叠降噪自动编码器SDAE作为特征学习方法，将上述处理后的特征向量作为输入向量； E、将堆叠降噪自动编码器SDAE的输出向量作为分类算法的输入，使用分类算法对上述输出向量进行分类，对向量的分类结果即为该特征向量所对应的网页区域的识别结果。本专利技术还可以采用以下技术措施: 步骤B中，通过选择全部视觉特征，得到未...

【技术保护点】
一种基于深度学习的网页区域识别算法，包括以下步骤：A、格式化文本：以网页的HTML源码作为算法输入；B、视觉特征处理：将HTML转化为XML，提取网页内不同区域的视觉特征；选择上述视觉特征，得到视觉特征向量；将视觉特征向量进行归一化，得到归一化后的视觉特征向量；C、文本特征处理：将HTML转化为XML，提取网页区域内的文本；对文本进行分词；通过神经网络语言模型学习出文本特征向量；D、以堆叠降噪自动编码器SDAE作为特征学习算法，将上述处理后的特征向量作为SDAE的输入向量；E、使用分类算法对堆叠降噪自动编码器SDAE学习得到的特征向量进行分类，对向量的分类结果即为该特征向量所对应的网页区域的识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：李志杰，周祖胜，
申请(专利权)人：天津海量信息技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人