网页识别方法及网页识别装置制造方法及图纸

技术编号：12097745 阅读：56 留言：0更新日期：2015-09-23 15:24

本发明专利技术提供一种网页识别方法及网页识别装置，该网页识别方法包括根据预定词汇数据库，获取网页标题中的预定词汇；根据预定词汇数据库中的预定词汇的加权值，生成网页标题的第一识别值；以及根据预设的第一阈值和网页标题的第一识别值，对网页标题的所属网页进行预定网页的识别。本发明专利技术还提供一种网页识别装置。本发明专利技术的网页识别方法及网页识别装置通过对网页标题中的预定词汇进行识别，实现了对“作弊”网页的识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网领域，特别是涉及一种网页识别方法及网页识别装置。
技术介绍
随着互联网的爆炸式增长，各种小型网站层出不穷。这其中也包括大量具有“作弊网页”的垃圾网站，这些“作弊网页”没有实际的内容，仅仅通过吸引用户眼球的标题(如色情标题等不良内容标题)，骗取用户的点击流量，以达到商业目的。目前已有的预定网页(不良网页)计算模型可有效的识别出具有不良内容(如色情内容或欺骗内容等)的垃圾网站，其通过统计机器学习的文本分类算法，利用页面主题内容来估计网页中的不良内容。然而，部分垃圾网站的“作弊网页”仅仅通过具有不良内容的标题来骗取用户点击，网页中并无实际的不良内容，因为标题的长度远远小于网页内容的实际长度，现有的预定网页计算模型无法对该“作弊网页”进行识别，从而无法对该垃圾网站的“作弊网页”进行过滤。
技术实现思路
本专利技术实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别方法；以解决现有的网页识别方法不能对上述“作弊”网页进行过滤的技术问题。本专利技术实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别装置；以解决现有的网页识别装置不能对上述“作弊”网页进行过滤的技术问题。为解决上述问题，本专利技术提供的技术方案如下:本专利技术实施例提供一种网页识别方法，其包括:根据预定词汇数据库，获取网页标题中的预定词汇，所述预定词汇数据库包括所述预定词汇以及与所述预定词汇对应的加权值；根据所述预定词汇数据库中的预定词汇的加权值，生成所述网页标题的第一识别值；以及根据预设的第一阈值和所述网页标题的第一...

【技术保护点】
一种网页识别方法，其特征在于，包括：根据预定词汇数据库，获取网页标题中的预定词汇，所述预定词汇数据库包括所述预定词汇以及与所述预定词汇对应的加权值；根据所述预定词汇数据库中的预定词汇的加权值，生成所述网页标题的第一识别值；以及根据预设的第一阈值和所述网页标题的第一识别值，对所述网页标题的所属网页进行预定网页的识别。

【技术特征摘要】

【专利技术属性】
技术研发人员：蔡兵，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人