网站信息识别方法、装置和电子设备制造方法及图纸

技术编号:22186114 阅读:31 留言:0更新日期:2019-09-25 03:38
本发明专利技术提供了一种网站信息识别方法、装置和电子设备,其中,该方法包括:根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图;根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果;根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。本发明专利技术在获取目标网站的内容后,对文本内容进行精确匹配和/或自然语言分析处理以获得文本识别结果;对图片文件和展示效果截图进行深度学习以获得图片识别结果。可以有效地判断该网站是否存在不良内容,减少误判率。

Web Site Information Recognition Method, Device and Electronic Equipment

【技术实现步骤摘要】
网站信息识别方法、装置和电子设备
本专利技术涉及网站监测
,尤其是涉及一种网站信息识别方法、装置和电子设备。
技术介绍
近年来随着互联网的发展,网络上不良信息逐渐增加,如何对网络不良信息进行自动有效的判别和筛查是互联网发展目前有待解决的问题。现有的解决方案是通过爬虫方式获取内容数据,进行敏感分词匹配;或者爬取图片识别分析。部分网站在处理反爬时会用假数据,导致现有的互联网不良信息识别方法无法正确有效地判断该网站是否存在不良内容,增加了现有的互联网不良信息识别方法的误判率。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种网站信息识别方法、装置和电子设备,以有效地判断该网站是否存在不良内容,减少误判率,增加信息识别的准确性。第一方面,本专利技术实施例提供了一种网站信息识别方法,包括:根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图;根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果;根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果本文档来自技高网...

【技术保护点】
1.一种网站信息识别方法,其特征在于,包括:根据目标网站的地址获取所述目标网站的内容;所述内容包括:文本内容、图片文件和展示效果截图;根据预设的敏感违规词库对所述文本内容进行精确匹配和/或自然语言分析处理,确定出所述目标网站的文本识别结果;根据预设的带有不同类型标签的样本图片对所述图片文件和所述展示效果截图分别进行基于深度学习的图像分类识别,确定出所述目标网站的图片识别结果。

【技术特征摘要】
1.一种网站信息识别方法,其特征在于,包括:根据目标网站的地址获取所述目标网站的内容;所述内容包括:文本内容、图片文件和展示效果截图;根据预设的敏感违规词库对所述文本内容进行精确匹配和/或自然语言分析处理,确定出所述目标网站的文本识别结果;根据预设的带有不同类型标签的样本图片对所述图片文件和所述展示效果截图分别进行基于深度学习的图像分类识别,确定出所述目标网站的图片识别结果。2.根据权利要求1所述的方法,其特征在于,根据目标网站的地址获取所述目标网站的内容的步骤,包括:获取目标网站的地址;根据所述地址通过普通请求的方式获取所述目标网站的文本内容;根据所述地址通过无头浏览器获取所述目标网站的图片文件和展示效果截图。3.根据权利要求1所述的方法,其特征在于,根据预设的敏感违规词库对所述文本内容进行精确匹配和/或自然语言分析处理,确定出所述目标网站的文本识别结果的步骤,包括:对所述文本内容进行分词;根据预设的系统配置文件判断是否采用文本精确匹配和/或NLP学习模型匹配分析所述文本内容;如果采用所述文本精确匹配分析所述文本内容,则将分词后的所述文本内容与所述敏感违规词库进行匹配,确定出所述目标网站的文本识别结果;如果采用所述NLP学习模型匹配分析所述文本内容,则将分词后的所述文本内容输入预先学习完成的NLP学习模型中,输出所述目标网站的文本识别结果;所述NLP学习模型是根据所述敏感违规词库进行学习得到的。4.根据权利要求1所述的方法,其特征在于,根据预设的带有不同类型标签的样本图片对所述图片文件和所述展示效果截图分别进行基于深度学习的图像分类识别,确定出所述目标网站的图片识别结果的步骤,包括:将所述...

【专利技术属性】
技术研发人员:白冰栗阳力李国华
申请(专利权)人:北京市博汇科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1