The invention relates to the field of network harmful information monitoring, and discloses a system of harmful information monitoring method based on large data, the use of web crawler to monitor website content real-time crawling, to obtain information on a web page; Web page information, analysis, segmentation, document indexing and keyword index, and save according to the index database; thesaurus files, web site keywords calculation monitoring score; when monitoring web site keywords score is greater than a preset threshold, the record of the monitoring sites; to the owner sent the notification information of the monitoring sites. The invention improves the monitoring efficiency of harmful information, and has low error rate, and can realize long effective control of harmful information.
【技术实现步骤摘要】
一种基于大数据的有害信息监测方法及系统
本专利技术涉及网络有害信息监测领域,尤其涉及一种基于大数据的有害信息监测方法及系统。
技术介绍
近年来,互联网业务发展十分迅猛,它加快了信息传播的速度,拓宽了信息传播的渠道,对经济的发展、社会的进步、科技的普及起到了积极的作用,但是随之而产生的信息内容安全问题也越来越突出,特别是当前境内外敌对势力和一些不法分子,利用互联网进行各种违法犯罪活动问题突出,各种有害信息在互联网上的传播,严重地危害了国家安全和社会稳定。现有技术中的有害信息监测系统的主要目的仅满足于对互联网基础资源的基础管理工作,侧重于对相关资源的管理及追溯,以及这些资源的拥有者资料的管理,相关资源实名制的管理,但并未侧重于对违法有害信息的发现、监测、拦截、处置,虽然也有一套信安设备,其中也具备有非法信息的发现及过滤功能,但是功能单一,且这些监管指令主要是由政府主管部门下发,由系统执行,而不是企业自主设置,此外也仅仅具备最简单的记录与拦截的功能,而不具备关键字分级、自主发现、自动汇总、就地通知、异步通知、批量处理、分类管理等必须功能,更不具备防止误判的功能,所以面对如何减少有害信息的滋生、传播这个问题,就无法发挥有效作用。
技术实现思路
本专利技术提供一种基于大数据的有害信息监测方法及系统,解决现有技术中有害信息监测系统对有害信息监测功能单一的技术问题。本专利技术的目的是通过以下技术方案实现的:一种基于大数据的有害信息监测方法,包括:利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存 ...
【技术保护点】
一种基于大数据的有害信息监测方法,其特征在于,包括:利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息,所述通告信息包含网页记录原因、记录的关键词、处置方式。
【技术特征摘要】
1.一种基于大数据的有害信息监测方法,其特征在于,包括:利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息,所述通告信息包含网页记录原因、记录的关键词、处置方式。2.根据权利要求1所述的基于大数据的有害信息监测方法,其特征在于,所述向所述监测网站的所有者发送通告信息的步骤之后,包括:判断预设时间之内是否接收到所述监测网站的所有者的处置反馈信息;当预设时间之内接收到所述监测网站的所有者的处置反馈信息时,根据所述反馈信息,对所述监测网站进行处理;当预设时间之内未接收到所述监测网站的所有者的处置反馈信息时,对所述监测网站进行阻断。3.根据权利要求1所述的基于大数据的有害信息监测方法,其特征在于,向所述监测网站的所有者发送通告信息,包括:通过移动应用通知所述监测网站的所有者;或者,通过邮件通知的方式通知所述监测网站的所有者;或者,通过在用户访问网站的时,返回通知信息;或者,通过后台系统通知所述监测网站的所有者。4.根据权利要求1所述的基于大数据的有害信息监测方法,其特征在于,所述根据词库文件,计算监测网站的网页的关键词评分的步骤,包括:根据词库文件,确定负面关键词的分值及正面关键词的分值,将所有负面关键词的分值与所有正面关键词的分值相加,所述负面关键词和正面关键词的分值由重要性或二义性确定。5.根据权利要求2所述的基于大数据的有害信息监测方法,其特征在于,所述当预设时间之内接收到所述监测网站的所有者的处置反馈信息时,根据所述反馈信息,对所述监测网站进行处理的步骤,包括:当所述反馈信息为确认监测结果正确,并完成处理的信息时,删除所述监测网站的记录;当所述反馈信息为监测结果有误时,删除所述监测网站的记录,并更新词库文件。6.一种基于大数据的有...
【专利技术属性】
技术研发人员:王先炼,
申请(专利权)人:成都西维数码科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。