网页识别方法、装置、电子设备和介质制造方法及图纸

技术编号:33454848 阅读:19 留言:0更新日期:2022-05-19 00:37
本公开提供了一种网页识别方法、装置、设备、介质和产品,涉及人工智能技术领域,具体为深度学习、知识图谱等技术领域。网页识别方法包括:获取目标网页的结构数据、目标网页和历史网页之间的第一关联关系以及针对历史网页的历史图谱数据;基于目标网页的结构数据、第一关联关系以及历史图谱数据,确定针对目标网页和历史网页的目标图谱数据;基于目标图谱数据,确定目标网页和历史网页之间的相似度;基于相似度和历史网页的类别,确定目标网页的类别。别。别。

【技术实现步骤摘要】
网页识别方法、装置、电子设备和介质


[0001]本公开涉及人工智能
,具体为深度学习、知识图谱等
,更具体地,涉及一种网页识别方法、装置、电子设备、介质和程序产品。

技术介绍

[0002]在互联网领域中,每天产生大量的网页供用户搜索,有些网页创作者为了快速建立网站吸引流量,通过各种作弊手段来生成网页,例如抄袭他人的网页,这种抄袭方式既不尊重网页创作者,也不遵守用户,给行业带来了不良影响。

技术实现思路

[0003]本公开提供了一种网页识别方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种网页识别方法,包括获取目标网页的结构数据、所述目标网页和历史网页之间的第一关联关系以及针对所述历史网页的历史图谱数据;基于所述目标网页的结构数据、所述第一关联关系以及所述历史图谱数据,确定针对所述目标网页和所述历史网页的目标图谱数据;基于所述目标图谱数据,确定所述目标网页和所述历史网页之间的相似度;基于所述相似度和所述历史网页的类别,确定所述目标网页的类别。
[0005]根据本公开本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页识别方法,包括:获取目标网页的结构数据、所述目标网页和历史网页之间的第一关联关系以及针对所述历史网页的历史图谱数据;基于所述目标网页的结构数据、所述第一关联关系以及所述历史图谱数据,确定针对所述目标网页和所述历史网页的目标图谱数据;基于所述目标图谱数据,确定所述目标网页和所述历史网页之间的相似度;以及基于所述相似度和所述历史网页的类别,确定所述目标网页的类别。2.根据权利要求1所述的方法,其中,所述基于所述目标网页的结构数据、所述第一关联关系以及所述历史图谱数据,确定针对所述目标网页和所述历史网页的目标图谱数据包括:基于所述第一关联关系,将所述目标网页的结构数据关联至所述历史图谱数据中,得到所述目标图谱数据。3.根据权利要求1所述的方法,其中,所述第一关联关系表征了在第一预设时间段内由所述历史网页跳转至所述目标网页,或者表征了在所述第一预设时间段内由所述目标网页跳转至所述历史网页。4.根据权利要求1所述的方法,其中:所述基于所述目标图谱数据,确定所述目标网页和所述历史网页之间的相似度包括:利用图形神经网络处理所述目标图谱数据,得到所述目标网页和所述历史网页之间的相似度;所述基于所述相似度和所述历史网页的类别,确定所述目标网页的类别包括:利用所述图形神经网络基于所述相似度和所述历史网页的类别,确定所述目标网页的类别。5.根据权利要求4所述的方法,其中,所述图形神经网络是通过以下方式得到的:利用所述图形神经网络基于所述历史图谱数据,得到针对所述历史网页的类别;以及基于所述历史网页的类别和参考类别,更新所述图形神经网络的网络参数。6.根据权利要求5所述的方法,其中,所述历史网页包括多个历史网页;所述历史图谱数据是通过以下方式得到的:获取所述多个历史网页的结构数据和所述多个历史网页彼此之间的第二关联关系;以及基于所述历史网页的结构数据和所述第二关联关系,确定所述历史图谱数据。7.根据权利要求6所述的方法,其中,所述多个历史网页包括第一历史网页和第二历史网页;所述第二关联关系表征了在第二预设时间段内由所述第一历史网页跳转至所述第二历史网页,或者表征了在所述第二预设时间段内由所述第二历史网页跳转至所述第一历史网页。8.一种网页识别方法,包括:获取模块,用于获取目标网页的结构数据、所述目标网页和历史网页之间的第一关联关系以及针对所述历史网页的历史图谱数据;第一确定模块,用于基于所述目标网页的结构数据、所述第一关联关系以及所述历史图谱数据,确定针对所述目标网页和所述历...

【专利技术属性】
技术研发人员:余文利刘伟张博
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1