一种基于大数据的有害信息监测方法及系统技术方案

技术编号:16819213 阅读:31 留言:0更新日期:2017-12-16 12:41
本发明专利技术涉及网络有害信息监测领域,公开了一种基于大数据的有害信息监测方法及系统,利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息。本发明专利技术提高了有害信息的监测效率,误差率低,可以对有害信息实现长效管控。

A method and system for monitoring harmful information based on large data

The invention relates to the field of network harmful information monitoring, and discloses a system of harmful information monitoring method based on large data, the use of web crawler to monitor website content real-time crawling, to obtain information on a web page; Web page information, analysis, segmentation, document indexing and keyword index, and save according to the index database; thesaurus files, web site keywords calculation monitoring score; when monitoring web site keywords score is greater than a preset threshold, the record of the monitoring sites; to the owner sent the notification information of the monitoring sites. The invention improves the monitoring efficiency of harmful information, and has low error rate, and can realize long effective control of harmful information.

【技术实现步骤摘要】
一种基于大数据的有害信息监测方法及系统
本专利技术涉及网络有害信息监测领域,尤其涉及一种基于大数据的有害信息监测方法及系统。
技术介绍
近年来,互联网业务发展十分迅猛,它加快了信息传播的速度,拓宽了信息传播的渠道,对经济的发展、社会的进步、科技的普及起到了积极的作用,但是随之而产生的信息内容安全问题也越来越突出,特别是当前境内外敌对势力和一些不法分子,利用互联网进行各种违法犯罪活动问题突出,各种有害信息在互联网上的传播,严重地危害了国家安全和社会稳定。现有技术中的有害信息监测系统的主要目的仅满足于对互联网基础资源的基础管理工作,侧重于对相关资源的管理及追溯,以及这些资源的拥有者资料的管理,相关资源实名制的管理,但并未侧重于对违法有害信息的发现、监测、拦截、处置,虽然也有一套信安设备,其中也具备有非法信息的发现及过滤功能,但是功能单一,且这些监管指令主要是由政府主管部门下发,由系统执行,而不是企业自主设置,此外也仅仅具备最简单的记录与拦截的功能,而不具备关键字分级、自主发现、自动汇总、就地通知、异步通知、批量处理、分类管理等必须功能,更不具备防止误判的功能,所以面对如何减少有害信息的滋生、传播这个问题,就无法发挥有效作用。
技术实现思路
本专利技术提供一种基于大数据的有害信息监测方法及系统,解决现有技术中有害信息监测系统对有害信息监测功能单一的技术问题。本专利技术的目的是通过以下技术方案实现的:一种基于大数据的有害信息监测方法,包括:利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息,所述通告信息包含网页记录原因、记录的关键词、处置方式。一种基于大数据的有害信息监测系统,包括:获取模块,用于利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;索引模块,用于对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;计算模块,用于根据词库文件,计算监测网站的网页的关键词评分,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;记录模块,用于当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;通告模块,用于向所述监测网站的所有者发送通告信息,所述通告信息包含网页记录原因、记录的关键词、处置方式。本专利技术提供一种基于大数据的有害信息监测方法及系统,利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息。本专利技术提高了有害信息的监测效率,误差率低,可以对有害信息实现长效管控。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可根据这些附图获得其他的附图。图1为本专利技术实施例的一种基于大数据的有害信息监测方法的流程图;图2为本专利技术实施例的一种基于大数据的有害信息监测系统的结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,为本专利技术实施例提供的一种基于大数据的有害信息监测方法,包括:步骤101、利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;步骤102、对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;步骤103、根据词库文件,计算监测网站的网页的关键词评分;其中,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;本专利技术实施例给负面关键字进行评分,不同的关键词因其重要性或二义性,给予不同的分值,最后系统在判断该信息是否属于非法信息时,以分值作为依据,以尽可能的避免误判。而对于正面关键词,例如“法院、民警、检查机关、刑法、抓获、严厉打击”等具备正面意义的词汇,给予一定的负分,将此分值与其它负面关键词分值相加,相加值与预设阈值进行比较作为判断依据,减少对一些新闻文章中出现的非法关键词的误判,提高系统使用体验。步骤104、当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;步骤105、向所述监测网站的所有者发送通告信息;其中,所述通告信息包含网页记录原因、记录的关键词、处置方式。其中,步骤105之后,包括:步骤105-1、判断预设时间之内是否接收到所述监测网站的所有者的处置反馈信息;步骤105-2、当预设时间之内接收到所述监测网站的所有者的处置反馈信息时,根据所述反馈信息,对所述监测网站进行处理;步骤105-3、当预设时间之内未接收到所述监测网站的所有者的处置反馈信息时,对所述监测网站进行阻断。步骤105包括多种方式,包括:通过移动应用通知所述监测网站的所有者;或者,通过邮件通知的方式通知所述监测网站的所有者;或者,通过在用户访问网站的时,返回通知信息;或者,通过后台系统通知所述监测网站的所有者。步骤103具体可以包括:根据词库文件,确定负面关键词的分值及正面关键词的分值,将所有负面关键词的分值与所有正面关键词的分值相加,所述负面关键词和正面关键词的分值由重要性或二义性确定。步骤105-2具体可以包括:步骤105-4、当所述反馈信息为确认监测结果正确,并完成处理的信息时,删除所述监测网站的记录;步骤105-5、当所述反馈信息为监测结果有误时,删除所述监测网站的记录,并更新词库文件。本专利技术提供一种基于大数据的有害信息监测方法,利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息。本专利技术提高了有害信息的监测效率,误差率低,可以对有害信息实现长效管控。本专利技术实施例还提供了一种基于大数据的有害信息监测系统,如图2所示,包括:获取模块210,用于利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;索引模块220,用于对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;计算模块230,用于根据词库文件,计算监测网站的网页的关键词评分,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;记录模块240,用于当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;通告模本文档来自技高网...
一种基于大数据的有害信息监测方法及系统

【技术保护点】
一种基于大数据的有害信息监测方法,其特征在于,包括:利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息,所述通告信息包含网页记录原因、记录的关键词、处置方式。

【技术特征摘要】
1.一种基于大数据的有害信息监测方法,其特征在于,包括:利用网络爬虫对监测网站的内容进行实时爬取,以获取网页的页面信息;对网页的页面信息,进行分析、分词,建立文档索引和关键词索引,并保存至索引数据库;根据词库文件,计算监测网站的网页的关键词评分,所述词库文件包括负面关键词和正面关键词,所述负面关键词设有对应的正分值,所述正面关键词设有对应的负分值;当监测网站的网页的关键词评分大于预设阈值时,对所述监测网站进行记录;向所述监测网站的所有者发送通告信息,所述通告信息包含网页记录原因、记录的关键词、处置方式。2.根据权利要求1所述的基于大数据的有害信息监测方法,其特征在于,所述向所述监测网站的所有者发送通告信息的步骤之后,包括:判断预设时间之内是否接收到所述监测网站的所有者的处置反馈信息;当预设时间之内接收到所述监测网站的所有者的处置反馈信息时,根据所述反馈信息,对所述监测网站进行处理;当预设时间之内未接收到所述监测网站的所有者的处置反馈信息时,对所述监测网站进行阻断。3.根据权利要求1所述的基于大数据的有害信息监测方法,其特征在于,向所述监测网站的所有者发送通告信息,包括:通过移动应用通知所述监测网站的所有者;或者,通过邮件通知的方式通知所述监测网站的所有者;或者,通过在用户访问网站的时,返回通知信息;或者,通过后台系统通知所述监测网站的所有者。4.根据权利要求1所述的基于大数据的有害信息监测方法,其特征在于,所述根据词库文件,计算监测网站的网页的关键词评分的步骤,包括:根据词库文件,确定负面关键词的分值及正面关键词的分值,将所有负面关键词的分值与所有正面关键词的分值相加,所述负面关键词和正面关键词的分值由重要性或二义性确定。5.根据权利要求2所述的基于大数据的有害信息监测方法,其特征在于,所述当预设时间之内接收到所述监测网站的所有者的处置反馈信息时,根据所述反馈信息,对所述监测网站进行处理的步骤,包括:当所述反馈信息为确认监测结果正确,并完成处理的信息时,删除所述监测网站的记录;当所述反馈信息为监测结果有误时,删除所述监测网站的记录,并更新词库文件。6.一种基于大数据的有...

【专利技术属性】
技术研发人员:王先炼
申请(专利权)人:成都西维数码科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1