一种网页核心内容提取方法技术

技术编号：12850275 阅读：41 留言：0更新日期：2016-02-11 15:21

本发明专利技术提供一种网页核心内容的提取方法，包括以下步骤：1)根据网页代码中的html标签，将网页内容分割为多个段落；2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值。3)根据所述特征值计算每个段落的核心特征值。根据网页中各个段落的核心特征值分布情况，得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落，从而得到网页的核心内容。与现有技术相比具有以下优点：不单纯依赖于html标签，充分考虑到文本段落本身特征、段落布局之间的特征，因而准确率高。实施并不依赖于特定类型的网页，具有通用性，能处理互联网上各类常见的网页。实施简单，计算量小，处理效率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息
，尤其涉及互联网信息处理
，具体涉及。
技术介绍
随着互联网的发展，互联网站网页数目、互联网用户都不断增长，互联网网页内容成为了人们获取信息的一个不可或缺的渠道。而在商业运作的因素下，为用户提供原始信息的网站，会在其包含有价值数据的网页中提供一些额外的信息，如广告数据以及对其他站点相关内容的链接(这些广告、链接数据可能是文本，也可能是图片，甚至可能是插件)；这些广告、链接等数据的不断加入也使得本来应该很精简的页面外观变得繁琐；各类的网页制作工具以及各种动态元素的加入也使得页面的内在结构变得复杂。网页内容与结构的日趋复杂影响用户阅读体验，耗费大量互联网带宽资源，这些数据不仅影响了网页信息浏览的效率，如果应用于检索的话，还会导致检索的准确性降低。如何准确快速分析获取网页核心内容成为众多Web内容处理应用(如搜索引擎、网络归档、信息收集系统等)迫切需要解决的一个难题。另外，移动互联网的蓬勃发展使得在移动端浏览网页成为大势所趋，而移动端所具有的屏幕小、流量受限等特点，无法显示常规网页中的所有内容，这也使得网页核心内容的有效提取变得更为迫切。现有技术中提取网页核心内容的方法一般有如下几种方法:1.根据网页中行与行的字符数进行确定1)针对网页，确定第i行和第(i+1)行内容的字符总数和中文字符数；2)计算第i行和第(i+1)行内容的文本密度，例如可以用中文字符数除以字符总数计算文本密度；3)将计算得到的文本密度与预设的阀值进行比较；4)若比较结果为文本密度不小于预设的阀值，则确定第i行和第(i+1)行为核心内容，若比较结果为文...

【技术保护点】
一种网页核心内容的提取方法，包括以下步骤：1)根据网页代码中的html标签，将网页内容分割为多个段落；2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值；3)根据所述特征值计算每个段落的核心特征值；根据网页中各个段落的核心特征值分布情况，得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落，从而得到网页的核心内容。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈勇，耿光刚，
申请(专利权)人：中国互联网络信息中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人