System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网站内容监测方法、装置、电子设备及可读存储介质制造方法及图纸_技高网

网站内容监测方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:41210707 阅读:2 留言:0更新日期:2024-05-09 23:33
本发明专利技术的实施例提供了一种网站内容监测方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,方法包括:对待检测网站和与待检测网站关联的网站进行爬取,得到待检测网站的网站目录树,获取各访客对待检测网站的各访问日志,针对各访问日志,确定访问日志对应的第一路径,在各第一路径与各第二路径均不匹配时,对第一路径对应的网站进行内容监控。基于现有的网站内容监测系统,通过爬取网站生成网站目录树,同时结合网站实时访问日志,动态分析网站路径变化,当发现网站出现路径变化时,立即对相关页面下发增量监测任务,实时检查网站内容安全状况,从而实现对网站内容监测的全面性,以及提高对网站监测的准确性。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体而言,涉及一种网站内容监测方法、装置、电子设备及可读存储介质


技术介绍

1、随着互联网的发展,网络平台内容大爆发的同时,也产生了大量不良有害信息,内容安全已经成为互联网生态治理的重要内容。同时伴随内容监管持续升级,不少网站因为内容安全问题受到不同程度的处罚,而传统的网站内容安全监测方法监测不全面,导致监测结果不够准确。


技术实现思路

1、本专利技术的目的在于提供一种网站内容监测方法、装置、电子设备及可读存储介质,能够提高对网站监测准确性。

2、为了实现上述目的,本申请实施例采用的技术方案如下:

3、第一方面,本申请实施例提供了一种网站内容监测方法,所述方法包括:

4、对待检测网站和与所述待检测网站关联的网站进行爬取,得到所述待检测网站的网站目录树;

5、获取各访客对所述待检测网站的各访问日志;

6、针对各所述访问日志,确定所述访问日志对应的第一路径;

7、将各所述第一路径与所述网站目录树中的各第二路径进行比较;

8、在各所述第一路径与各所述第二路径均不匹配时,对所述第一路径对应的网站进行内容监控。

9、在可选的实施方式中,所述对待检测网站和与所述待检测网站关联的网站进行爬取,得到所述待检测网站的网站目录树的步骤,包括:

10、对所述待检测网站的各第一页面内容进行提取;

11、对所述待检测网站关联的网站的各第二页面内容进行提取;

12、针对每个第一页面内容,基于所述第一页面内容与所有第二页面内容构成所述第一页面内容的各第二路径;

13、将所有所述第二路径构成所述待检测网站的网站目录树。

14、在可选的实施方式中,所述方法还包括:

15、针对各所述第一页面内容,判断所述第一页面内容是否包含不良信息;

16、在所述第一页面内容包含不良信息时,向所述待检测网站对应的终端发送提示信息;

17、针对各所述第二页面内容,判断所述第二页面内容是否包含不良信息;

18、在所述第二页面包含不良信息时,向所述待检测网站关联的网站对应的终端发送提示信息。

19、在可选的实施方式中,所述方法还包括:

20、在各所述第一路径与各目标路径匹配时,确定各所述目标路径的第一访问量,其中,所述目标路径为各第二路径中与所述第一路径匹配的路径;

21、针对各所述第一访问量,将所述第一访问量与预设访问量进行比较;

22、在所述第一访问量大于所述预设访问量时,对所述第一访问量对应的目标路径的对应的网站进行内容监测。

23、在可选的实施方式中,所述方法还包括:

24、确定所述第一路径对应的网站页面;

25、对所述第一路径对应的网站页面进行爬取,以对所述网站目录树进行更新。

26、在可选的实施方式中,所述方法还包括:

27、确定各所述目标路径对应的网站的各第二访问量;

28、针对各所述第二访问量,将所述第二访问量与预设访问量进行比较;

29、在所述第二访问量大于所述预设访问量时,对所述第二访问量对应的网站进行内容监测。

30、第二方面,本申请实施例提供了一种网站内容监测装置,所述装置包括:

31、爬取模块,用于对待检测网站和与所述待检测网站关联的网站进行爬取,得到所述待检测网站的网站目录树;

32、获取模块,用于获取各访客对所述待检测网站的各访问日志;

33、确定模块,用于针对各所述访问日志,确定所述访问日志对应的第一路径;

34、比较模块,用于将各所述第一路径与所述网站目录树中的各第二路径进行比较;

35、监控模块,用于在所述第一路径与各所述第二路径均不匹配时,对所述第一路径对应的网站进行内容监控。

36、第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述网站内容监测方法的步骤。

37、第四方面,本申请实施例提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述网站内容监测方法的步骤。

38、本申请具有以下有益效果:

39、本申请通过对待检测网站和与待检测网站关联的网站进行爬取,得到待检测网站的网站目录树,获取各访客对待检测网站的各访问日志,针对各访问日志,确定访问日志对应的第一路径,将各第一路径与网站目录树中的各第二路径进行比较,在各第一路径与各第二路径均不匹配时,对第一路径对应的网站进行内容监控。基于现有的网站内容监测系统,通过爬取网站生成网站目录树,同时结合网站实时访问日志,动态分析网站路径变化,当发现网站出现路径变化时,立即对相关页面下发增量监测任务,实时检查网站内容安全状况,从而实现对网站内容监测的全面性,以及提高对网站监测的准确性。

本文档来自技高网
...

【技术保护点】

1.一种网站内容监测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对待检测网站和与所述待检测网站关联的网站进行爬取,得到所述待检测网站的网站目录树的步骤,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求4所述的方法,其特征在于,所述方法还包括:

7.一种网站内容监测装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述爬取模块具体用于:

9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法的步骤。

10.一种可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

【技术特征摘要】

1.一种网站内容监测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对待检测网站和与所述待检测网站关联的网站进行爬取,得到所述待检测网站的网站目录树的步骤,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求4所述的方法,其特征在于...

【专利技术属性】
技术研发人员:雷佳才罗立徐开红曹孟霏李静胡锐黄杨
申请(专利权)人:成都知道创宇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1