基于深度学习的网页区域识别算法制造技术

技术编号:13167949 阅读:100 留言:0更新日期:2016-05-10 12:56
一种基于深度学习的网页区域识别算法,包括以下步骤:A、以格式化文本,网页的超文本标记语言HTML的源码作为算法输入;B、通过HTML2XML算法提取出网页区域的视觉特征向量;C、通过HTML2XML算法提取出网页区域的文本内容,并通过神经网络语言模型学习出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学习方法,将上述特征向量作为SDAE的输入向量;E、使用分类算法对SDAE的输出向量进行分类,对向量的分类结果即为该向量所对应的网页区域的识别结果。通过本发明专利技术可对网页内的标题区、正文区、导航区等视觉区域进行准确识别,识别准确率达99.99%-100%。

【技术实现步骤摘要】

本专利技术涉及互联网信息采集的
,具体说是一种。
技术介绍
网页区域识别对搜索引擎构建、网络信息检索、网络数据采集及网络知识发现至关重要。目前,网页区域识别通常采取如下方法:人工设定识别规则对网页区域进行识别或者基于其他非深度学习的机器学习方法对网页区域进行识别。对网页区域识别而言,区域内文本的视觉特征(文字的大小、颜色、是否加粗等)及区域本身的视觉特征(位置、底色、是否有边框等)至关重要。纯文本无法反映这些视觉特征,且自然语言具有高度抽象性,仅对纯文本进行特征提取及模式识别,难以提取出足够的特征,获得理想的识别效果。
技术实现思路
本专利技术要解决的技术问题是提供一种。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的,包括以下步骤: A、格式化文本:以网页的HTML源码作为算法输入; B、视觉特征处理: 将HTML转化为XML,提取网页内不同区域的视觉特征;选择上述视觉特征,得到视觉特征向量;将视觉特征向量进行归一化,得到归一化后的视觉特征向量; C、文本特征处理: 将HTML转化为XML,提取网页区域内的文本;通过分词算法将文本特征序列化;通过神经网络语言模型学习出文本特征向量; D、将堆叠降噪自动编码器SDAE作为特征学习方法,将上述处理后的特征向量作为输入向量; E、将堆叠降噪自动编码器SDAE的输出向量作为分类算法的输入,使用分类算法对上述输出向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。本专利技术还可以采用以下技术措施: 步骤B中,通过选择全部视觉特征,得到未经归一化的视觉特征向量。步骤B中,通过选择部分视觉特征,得到未经归一化的视觉特征向量。使用Min-Max Normali zat 1n的归一化方法对视觉特征向量进行归一化,得到归一化后的视觉特征向量。步骤C中,通过海量分词算法对文本进行分词。步骤C中,通过结巴分词算法对文本进行分词。步骤C中,通过Paragraph2Vec算法学习出文本特征向量。步骤D中,将视觉特征向量作为堆叠降噪自动编码器SDAE的输入向量。步骤D中,将视觉特征向量与文本特征向量拼接后作为堆叠降噪自动编码器SDAE的输入向量,对拼接后的向量选择性进行归一化处理。步骤E中,使用分类算法Softmax Regress1n对学习到的特征向量进行分类。本专利技术具有的优点和积极效果是: 本专利技术的中,以网页的HTML源码作为算法输入,并将HTML转化为XML,提取视觉特征和文本内容,并对相应的视觉特征进行归一化处理、对文本内容通过神经网络语言模型进行特征学习,分别得到初步的视觉特征向量和文本特征向量,通过堆叠降噪自动编码器SDAE对初步的视觉特征向量和文本特征向量进行进一步的学习,得到代表相应网页区域的网页区域特征向量,并通过分类算法对网页区域特征向量进行分类处理,即得到网页区域的识别结果。本专利技术可对网页内的标题区、正文区、导航区等视觉区域进行准确识别,识别准确率达99.99%-100%。【具体实施方式】以下通过具体实施例对本专利技术进行详细说明。本专利技术的,包括以下步骤: A、格式化文本:以网页的HTML源码作为算法输入; B、视觉特征处理: 将HTML转化为XML,提取网页内不同区域的视觉特征,视觉特征包括区域坐标、区域底色、区域边框粗细、区域文字密度、区域文字字体、区域文字大小、区域文字颜色等;通过选择全部或部分视觉特征,得到未经归一化的视觉特征向量;使用Min-Max Normalizat1n的归一化方法对视觉特征向量进行归一化,得到归一化后的视觉特征向量; C、文本特征处理: 将HTML转化为XML,提取网页区域内的文本;通过海量分词算法或者结巴分词算法对文本进行分词;通过神经网络语言模型的Paragraph2Vec算法学习出文本特征向量; D、将堆叠降噪自动编码器SDAE作为特征学习方法,将上述处理后的特征向量作为输入向量,其中SDAE的输入向量由视觉特征向量与文本特征向量拼接而成,或仅使用视觉特征向量充当输入向量,而对拼接后的向量进行或不进行归一化处理; E、将堆叠降噪自动编码器SDAE的输出向量作为分类算法的输入,使用分类算法Softmax Regress1n对上述输出向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。以上所述,仅是本专利技术的较佳实施例而已,并非对本专利技术作任何形式上的限制,虽然本专利技术已以较佳实施例公开如上,然而,并非用以限定本专利技术,任何熟悉本专业的技术人员,在不脱离本专利技术技术方案范围内,当然会利用揭示的
技术实现思路
作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本专利技术技术方案的内容,依据本专利技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本专利技术技术方案的范围内。【主权项】1.一种,包括以下步骤: A、格式化文本:以网页的HTML源码作为算法输入; B、视觉特征处理: 将HTML转化为XML,提取网页内不同区域的视觉特征;选择上述视觉特征,得到视觉特征向量;将视觉特征向量进行归一化,得到归一化后的视觉特征向量; C、文本特征处理: 将HTML转化为XML,提取网页区域内的文本;对文本进行分词;通过神经网络语言模型学习出文本特征向量; D、以堆叠降噪自动编码器SDAE作为特征学习算法,将上述处理后的特征向量作为SDAE的输入向量; E、使用分类算法对堆叠降噪自动编码器SDAE学习得到的特征向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。2.根据权利要求1所述的,其特征在于:步骤B中,通过选择全部视觉特征,得到未经归一化的视觉特征向量。3.根据权利要求1所述的,其特征在于:步骤B中,通过选择部分视觉特征,得到未经归一化的视觉特征向量。4.根据权利要求2或3所述的,其特征在于:使用Min-Max Normalizat1n的归一化方法对视觉特征向量进行归一化,得到归一化后的视觉特征向量。5.根据权利要求4所述的,其特征在于:步骤C中,通过海量分词算法对文本进行分词。6.根据权利要求4所述的,其特征在于:步骤C中,通过结巴分词算法对文本进行分词。7.根据权利要求5或6所述的,其特征在于:步骤C中,通过Paragraph2Vec算法学习出文本特征向量。8.根据权利要求5或6所述的,其特征在于:步骤D中,将视觉特征向量作为堆叠降噪自动编码器SDAE的输入向量。9.根据权利要求5或6所述的,其特征在于:步骤D中,将视觉特征向量与文本特征向量拼接后作为堆叠降噪自动编码器SDAE的输入向量,对拼接后的向量选择性进行归一化处理。10.根据权利要求1所述的,其特征在于:步骤E中,使用分类算法Sof tmax Regress 1n对学习到的特征向量进行分类。【专利摘要】一种,包括以下步骤:A、以格式化文本,网页的超文本标记语言HTML的源码作为算法输入;B、通过HTML2XML算法提取出网页区域的视觉特征向量;C、通过HTML2XML算法提取出网页区域的文本内容,并通过神经网络语言模型学习出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学习方法,将上述特征向量作为SDAE的输入向量;E、使用分类算法对本文档来自技高网
...

【技术保护点】
一种基于深度学习的网页区域识别算法,包括以下步骤:A、格式化文本:以网页的HTML源码作为算法输入;B、视觉特征处理:将HTML转化为XML,提取网页内不同区域的视觉特征;选择上述视觉特征,得到视觉特征向量;将视觉特征向量进行归一化,得到归一化后的视觉特征向量;C、文本特征处理:将HTML转化为XML,提取网页区域内的文本;对文本进行分词;通过神经网络语言模型学习出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学习算法,将上述处理后的特征向量作为SDAE的输入向量;E、使用分类算法对堆叠降噪自动编码器SDAE学习得到的特征向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李志杰周祖胜
申请(专利权)人:天津海量信息技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1