网页页面信息的提取方法和装置制造方法及图纸

技术编号：11239184 阅读：73 留言：0更新日期：2015-04-01 12:39

本发明专利技术公开了一种网页页面信息的提取方法和装置。其中，网页页面信息的提取方法包括：获取多个待提取网页页面的超文本标记语言HTML代码；根据HTML代码对多个待提取网页页面进行聚类，得到多个归属类别；提取每个归属类别中的目标块元素，其中，目标块元素为同一归属类别中的不同待提取网页页面共有的块元素；提取目标块元素中的文本，得到目标块元素的文本集合；计算文本集合的指标值，其中，指标值用于表示文本集合中的文本的差异程度；提取指标值大于第一预设阈值的文本集合中的文本，得到网页页面信息。通过本发明专利技术，解决了现有技术中网页信息提取准确度低问题，进而达到了提高网页信息提取准确性的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，具体而言，涉及一种网页页面信息的提取方法和装置。
技术介绍
采集网页信息是大数据分析的重要数据来源。目前采集网页信息主要有两种方案，一种是使用基于规则的方法，使用正则表达式、Xpath或Css选择器提取页面元素，另一种是基于统计的方法，通过机器学习人工标注的数据得到训练模型，根据模型进行信息提取。基于规则的方法通过分析HTML(HyperText Mark-up Language，超文本标记语言)代码，对待提取信息的左右边界进行分析，通过正则表达式或其它手段提取信息，或者通过为页面建立DOM(Document Object Model，文件对象模型)树，通过XPath或Css选择器选取网页元素，进而选取包含待提取信息的元素，从而实现信息提取。基于规则的提取方法，提取准确，但是适用性差，往往只能针对一类页面进行信息提取，页面如果有变化会导致提取错误。基于统计的方法，通过机器学习的方法，对人工标注的准确结果进行训练，得到训练模型，通过训练模型进行信息识别和提取。基于统计方法适用性好，可以用于各种网页页面，但是此种方法资源消耗大，对人工标注的依赖性强，信息提取的质量与人工标注的质量相关性强。准确度不能完全保障，基于训练的方法不是针对特定页面的信息提取，对新的页面可能会导致提取不全或提取失败。针对现有技术中网页信息提取准确度低的问题，目前尚未提出有效的解决方案。专利技术...
网页页面信息的提取方法和装置

【技术保护点】
一种网页页面信息的提取方法，其特征在于，包括：获取多个待提取网页页面的超文本标记语言HTML代码；根据所述HTML代码对多个所述待提取网页页面进行聚类，得到多个归属类别；提取每个所述归属类别中的目标块元素，其中，所述目标块元素为同一所述归属类别中的不同所述待提取网页页面共有的块元素；提取所述目标块元素中的文本，得到所述目标块元素的文本集合；计算所述文本集合的指标值，其中，所述指标值用于表示所述文本集合中的文本的差异程度；以及提取所述指标值大于第一预设阈值的所述文本集合中的文本，得到所述网页页面信息。

【技术特征摘要】
1.一种网页页面信息的提取方法，其特征在于，包括：
获取多个待提取网页页面的超文本标记语言HTML代码；
根据所述HTML代码对多个所述待提取网页页面进行聚类，得到多个归属类
别；
提取每个所述归属类别中的目标块元素，其中，所述目标块元素为同一所述
归属类别中的不同所述待提取网页页面共有的块元素；
提取所述目标块元素中的文本，得到所述目标块元素的文本集合；
计算所述文本集合的指标值，其中，所述指标值用于表示所述文本集合中的
文本的差异程度；以及
提取所述指标值大于第一预设阈值的所述文本集合中的文本，得到所述网页
页面信息。
2.根据权利要求1所述的提取方法，其特征在于，计算所述文本集合的指标值包括：
记录所述文本集合中的每个不相同的文本的出现次数；
根据每个所述不相同的文本的出现次数，确定所述文本集合中全部文本的总
出现次数；
根据每个所述不相同的文本的出现次数和所述总出现次数，计算每个所述不
相同的文本在所述文本集合中的出现频率；以及
根据每个所述不相同的文本在所述文本集合中的所述出现频率，确定所述文
本集合的指标值。
3.根据权利要求2所述的提取方法，其特征在于，根据每个所述不相同的文本在所
述文本集合中的所述出现频率，确定所述文本集合的指标值包括：
按照公式ESet=-Σi=1mp(texti)Log2(p(texti))]]>计算所述文本集合的指标
值，其中，ESet为所述文本集合的指标值，m为所述文本集合中包含所述不相同的
文本的个数，p(texti)为每个所述不相同的文本在所述文本集合中的出现频率。
4.根据权利要求1所述的提取方法，其特征在于，在提取所述指标值大于第一预设
阈值的所述文本集合中的文本，得到所述网页页面信息之后，所述提取方法还包

\t括：
记录所述文本的类别属性。
5.根据权利要求1所述的提取方法，其特征在于，通过以下方式确定第一待提取网
页页面和第二待提取页面的归属类别，其中，所述第一待提取网页页面和所述第
二待提取页面为多个所述待提取页面中的任意两个待提取网页页面：
根据所述第一待提取网页页面的HTML代码建立第一树形结构，并根据所述
第二待提取网页页面的HTML代码建立第二树形结构；
提取所述第一树形结构中包含预设属性的块元素，得到第一块元素，以及提
取所述第二树形结构中包含预设属性的块元素，得到第二块元素；
根据所述第一块元素和所述第二块元素，计算所述第一待提取网页页面和所
述第二待提取网页页面的相似度平均值；
比较所述相似度平均值和第二预设阈值的大小；以及
在比较出所述相似度平均值大于所述第二预设阈值的情况下，确定所述第一
待提取网页页面和所述第二待提取页面为相同归属类别，或在比较出所述相似度
平均值小于或等于所述第二预设阈值的情况下，确定所述第一待提取网页页面和
所述第二待提取页面分别为不同的归属类别。
6.一种网页页面信息的提取装置，其特征在于，包括：
获取单元，用于获取多个...

【专利技术属性】
技术研发人员：侯明午，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人