异常网页识别方法、异常站点识别方法及装置制造方法及图纸

技术编号:30780244 阅读:27 留言:0更新日期:2021-11-16 07:40
本公开提供了一种异常网页识别方法、异常站点识别方法及装置,涉及互联网技术领域,尤其涉及智能搜索、智能推荐技术。实现方案为:从待识别网页的页面结构信息中提取页面结构特征;从待识别网页的文本内容信息中提取文本语义特征;根据页面结构特征和文本语义特征,确定待识别网页的异常程度;以及响应于确定异常程度大于第一阈值,判断待识别网页为异常网页。利用本公开提供的方法,能够准确识别出异常网页,进而能够在搜索和推荐场景中避免将异常网页作为搜索结果和推荐结果展示给用户,提高向用户提供的信息的质量。高向用户提供的信息的质量。高向用户提供的信息的质量。

【技术实现步骤摘要】
异常网页识别方法、异常站点识别方法及装置


[0001]本公开涉及互联网
,尤其涉及智能搜索、智能推荐技术,具体涉及一种异常网页识别方法及装置、异常站点识别方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]用户习惯于通过互联网来获取信息,互联网中的信息通过网页的形式呈现给用户。在一些情况中,用户可以在互联网中进行搜索以获得其感兴趣的信息。在另一些情况中,为了便于用户获取信息,可以采用推荐系统来从海量信息中筛选出用户可能感兴趣的信息,并将其推送给用户。通常地,用户期望从网页中获取高质量的信息。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种异常网页识别方法及装置、异常站点识别方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
>[0005]根据本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种异常网页识别方法,包括:从待识别网页的页面结构信息中提取页面结构特征;从所述待识别网页的文本内容信息中提取文本语义特征;根据所述页面结构特征和所述文本语义特征,确定所述待识别网页的异常程度;以及响应于确定所述异常程度大于第一阈值,判断所述待识别网页为异常网页。2.根据权利要求1所述的方法,其中,所述页面结构信息包括所述待识别网页中的元素的坐标信息,并且其中,从待识别网页的页面结构信息中提取页面结构特征包括:根据所述坐标信息,确定所述待识别网页的页面留白信息,所述留白信息包括段落缩进、段落间距、元素对齐方式中的至少一种;以及根据所述页面留白信息,确定所述页面结构特征。3.根据权利要求1或2所述的方法,其中,所述页面结构信息包括所述待识别网页的样式信息,并且其中,从待识别网页的页面结构信息中提取页面结构特征包括:通过匹配所述待识别网页的样式信息与同源网页的样式信息,确定所述待识别网页与所述同源网页的样式匹配度,其中,所述同源网页与所述待识别网页属于同一个站点;以及根据所述样式匹配度,确定所述页面结构特征。4.根据权利要求3所述的方法,其中,所述样式信息包括以下至少一种:字体样式、字体大小、字体颜色、背景图像、背景颜色。5.根据权利要求1

4中任一项所述的方法,其中,所述文本语义特征包括段落相关性特征,并且其中,从所述待识别网页的文本内容信息中提取文本语义特征包括:对所述待识别网页中的文本进行分段,得到一个或多个段落;分别确定所述一个或多个段落中的每一个段落的段落语义向量,所述段落语义向量为相应段落所包括的各个词的词向量的拼接;以及将一个段落的段落语义向量或多个段落的段落语义向量的拼接确定为所述段落相关性特征。6.根据权利要求1

5中任一项所述的方法,其中,所述文本语义特征包括语句顺畅度特征,并且其中,从所述待识别网页的文本内容信息中提取文本语义特征包括:获取所述待识别网页中的一个或多个语句;分别确定所述一个或多个语句中的每一个语句的语句语义向量,所述语句语义向量为相应语句所包括的各个词的词向量的拼接;以及将一个语句的语句语义向量或多个语句的语句语义向量的拼接确定为所述语句顺畅度特征。7.根据权利要求6所述的方法,其中,获取所述待识别网页中的一个或多个语句包括:对所述待识别网页中的多个语句进行抽样,得到所述一个或多个语句。8.根据权利要求1

7中任一项所述的方法,其中,所述文本语义特征包括关键词复现特征,并且
其中,从所述待识别网页的文本内容信息中提取文本语义特征包括:对所述待识别网页的标题进行分词,得到至少一个目标词;从所述至少一个目标词中确定一个或多个关键词,其中,所述关键词在所述待识别网页的正文中出现的次数大于一预设值;以及将一个关键词的词向量或多个关键词的词向量的拼接确定为所述关键词复现特征。9.根据权利要求1

8中任一项所述的方法,其中,根据所述页面结构特征和所述文本语义特征,确定所述待识别网页的异常程度包括:将所述页面结构特征和所述文本语义特征输入预设的识别模型,并获得所述识别模型输出的所述待识别网页的异常程度。10.一种异常站点识别方法,包括:根据权利要求1

9中任一项所述的方法,判断待识别站点中的多个网页是否为异常网页;响应于确定所述多个网页中的异常网页所占的比例大于第二阈值,判断所述待识别站点为异常站点。11.一种异常网页识别装置,包括:结构特征提取模块,被配置为从待识别网页的页面结构信息中提取页面结构特征;语义特征提取模块,被配置为从所述待识别网页的文本内容信息中提取文本语义特征;识别模块,被配置为根据所述页面...

【专利技术属性】
技术研发人员:刘伟余文利张博林赛群
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1