一种可定制裁减的网络舆情证据保全方法技术

技术编号:14339645 阅读:174 留言:0更新日期:2017-01-04 12:11
本发明专利技术公开了一种可定制裁减的网络舆情证据保全方法,涉及计算机网络信息安全技术领域。包括以下步骤:1)采集舆情信息;2)对采集的舆情信息,根据用户设置的舆情信息过滤规则进行舆情信息过滤,并采用自动情感判别算法和全文检索算法进行过滤处理;3)对舆情信息进行词库匹配;4)对于词库匹配成功的舆情信息进行屏幕截屏并保存。该方法采用了自动情感判别算法和全文检索算法,智能的过滤掉广告和非主题相关信息,提高了识别率;同时用户还可以配置舆情信息过滤规则,对舆情信息进行筛选,从而实现用户根据舆情来源、情感倾向、信息发布时间、关键词等条件定制裁减需要保全的网络舆情,并为之后的司法维权行为提供有效的电子证据。

【技术实现步骤摘要】

本专利技术涉及计算机网络信息安全
,尤其涉及一种可定制裁减的网络舆情证据保全方法
技术介绍
网络舆情信息属于电子证据的一类,互联网时代网络舆情信息的影响是巨大的,负面的舆情信息可能小到影响个人的心情、名誉或隐私,大到影响企业的生存、社会秩序甚至国家安全。而舆情信息又具有易篡改易灭失的特点,所以应有预见性保存固定网络舆情信息,才可在未来的维权中占据主动。通常电子数据要满足一定的要求才能成为电子证据,其中提取固定电子数据形成的司法鉴定报告是一种重要的证据。当前市场中,很多家互联网公司都在做网络舆情信息监控,但是他们仅仅只是对网络上舆情信息进行收录,这样子不能算是证据固定,所以之前没有什么公司达到证据固定的要求。作为可供司法采信的电子证据,其操作方必须具有相关的电子证据司法鉴定资质,其次对于电子证据的样式也有特殊的要求。网络舆情信息和有效的电子证据有以下差别:(1)表现形式上,网络舆情信息是扩展名为html、htm或php等类型的网页文件,而有效的电子证据是屏幕截图,图片要包含以下要素:应用程序框架、舆情信息地址、消息内容和保全服务器本地时间。这样一张图片就包含了舆情信息的来源、内容、提取方法和时间等内容。而网页文件本身只携带了消息内容的信息,证据效力很低。(2)对于显示超过一个屏幕的网络舆情信息对应的电子证据是多张图片,图片对应了按键盘翻页键的各个屏幕截图。电子证据应包括来源、提取方法、内容和时间等要素,网络采集引擎采集下来的网页只包含了内容,而且通常内容有缺失,法律效力弱很多。目前,调用Windows提供的API进行截图,只能把网页信息转化成图片形式,也是没有包括所有电子证据应具备的要素。舆情信息过滤是指根据舆情来源、情感倾向、信息发布时间、关键词等条件自动需要保全的网络舆情。不是所有采集下来的舆情信息都需要进行证据保全,例如正面的舆情信息。目前公开的情感判别算法的误报率都比较高,后果会造成负面舆情信息被漏掉做证据保全。互联网舆情信息属于远程数字化设备的不可再现数据,其特点是易篡改易灭失,因此舆情信息从被采集、过滤、到证据保全应是一个连续的动作,过滤的速度需要与采集的速度匹配,否则可能导致证据被篡改或灭失。
技术实现思路
本专利技术所要解决的技术问题是提供一种可定制裁减的网络舆情证据保全方法,该方法采用了自动情感判别算法和全文检索算法,智能的过滤掉广告和非主题相关信息,使得程序聚焦于信息内容,提高了识别率;同时用户还可以配置舆情信息过滤规则,指定要保全的舆情信息的条件,对舆情信息进行筛选,从而实现用户根据舆情来源、情感倾向、信息发布时间、关键词等条件定制裁减需要保全的网络舆情,并为之后的司法维权行为提供有效的电子证据。为解决上述技术问题,本专利技术所采取的技术方案是:一种可定制裁减的网络舆情证据保全方法,包括以下步骤:1)采集舆情信息;2)对采集的舆情信息,根据用户设置的舆情信息过滤规则进行舆情信息过滤,并采用自动情感判别算法和全文检索算法进行过滤处理;3)对舆情信息进行词库匹配;4)对于词库匹配成功的舆情信息进行屏幕截屏并保存。进一步优化的技术方案为所述步骤2)中的自动情感判别算法主要包括以下步骤:A、对于采集的舆情信息进行分词提取;B、对于提取的分词进行词汇抽取;C、根据正面情感词库和负面情感词库对抽取的词汇进行情感词匹配并进行情感词正面、负面、中性的分值分类判定;D、读取词汇,并根据情感分值进行正面舆论、负面舆论、中性舆论的判定。进一步优化的技术方案为所述步骤2)中的全文检索算法主要包括以下步骤:A、对于采集的舆情信息进行分词提取;B、将提取的分词存储于词库;C、进行关键词匹配判定,匹配成功则进行屏幕截屏处理,匹配不成功则进行丢弃处理。进一步优化的技术方案为所述步骤4)中的对于词库匹配成功的舆情信息进行屏幕截屏并保存主要包括以下步骤:A、创建运行沙盒,即创建一个运行环境以加载舆情信息;B、分屏截图,即加载在屏幕上全部舆情信息进行截图处理;C、保存截图,即对截图加载上签字或水印进行数据保存。采用上述技术方案所产生的有益效果在于:本专利技术采用了自动情感判别算法和全文检索算法,智能的过滤掉广告和非主题相关信息,使得程序聚焦于信息内容,提高了识别率;同时用户还可以配置舆情信息过滤规则,指定要保全的舆情信息的条件,对舆情信息进行筛选,从而实现用户根据舆情来源、情感倾向、信息发布时间、关键词等条件定制裁减需要保全的网络舆情,并为之后的司法维权行为提供有效的电子证据。本专利技术是一种应用到舆情监控系统或采集系统中的网络舆情证据保全技术,其优点在于:(1)保全过程和电子证据符合公安部鉴定标准《数字化设备证据数据发现提取固定方法》GA/T756-2008。(2)网络舆情采集和证据保全自动完成。(3)可根据舆情来源、情感倾向、信息发布时间、关键词等条件定制裁减需要保全的网络舆情。附图说明图1是本专利技术的原理框图;图2是本专利技术自动情感判别算法的原理框图;图3是本专利技术全文检索算法的原理框图;图4是本专利技术屏幕截图的原理框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术公开了一种可定制裁减的网络舆情证据保全方法,包括以下步骤:1)采集舆情信息;2)对采集的舆情信息,根据用户设置的舆情信息过滤规则进行舆情信息过滤,并采用自动情感判别算法和全文检索算法进行过滤处理;3)对舆情信息进行词库匹配;4)对于词库匹配成功的舆情信息进行屏幕截屏并保存。采用了自动情感判别算法和全文检索算法,智能的过滤掉广告和非主题相关信息,使得程序聚焦于信息内容,提高了识别率;同时用户还可以配置舆情信息过滤规则,指定要保全的舆情信息的条件,对舆情信息进行筛选,从而实现用户根据舆情来源、情感倾向、信息发布时间、关键词等条件定制裁减需要保全的网络舆情,并为之后的司法维权行为提供有效的电子证据。如图2中所示,进一步优化的实施例为上述步骤2)中的自动情感判别算法主要包括以下步骤:A、对于采集的舆情信息进行分词提取;B、对于提取的分词进行词汇抽取;C、根据正面情感词库和负面情感词库对抽取的词汇进行情感词匹配并进行情感词正面、负面、中性的分值分类判定;D、读取词汇,并根据情感分值进行正面舆论、负面舆论、中性舆论的判定。如图3中所示,进一步优化的实施例为上述步骤2)中的全文检索算法主要包括以下步骤:A、对于采集的舆情信息进行分词提取;B、将提取的分词存储于词库;C、进行关键词匹配判定,匹配成功则进行屏幕截屏处理,匹配不成功则进行丢弃处理。如图4中所示,进一步优化的实施例为上述步骤4)中的对于词库匹配成功的舆情信息进行屏幕截屏并保存主要包括以下步骤:A、创建运行沙盒,即创建一个运行环境以加载舆情信息,是指获取舆情信息的URL和运行配置信息,在服务器上创建一个运行环境以加载舆情信息,通常是指调用浏览器访问互联网舆情信息;B、分屏截图,即加载在屏幕上全部舆情信息进行截图处理,模拟PageDown按键以在屏幕上显示舆情信息,然后截图,本文档来自技高网
...
一种可定制裁减的网络舆情证据保全方法

【技术保护点】
一种可定制裁减的网络舆情证据保全方法,其特征在于:包括以下步骤:1)采集舆情信息;2)对采集的舆情信息,根据用户设置的舆情信息过滤规则进行舆情信息过滤,并采用自动情感判别算法和全文检索算法进行过滤处理;3)对舆情信息进行词库匹配;4)对于词库匹配成功的舆情信息进行屏幕截屏并保存。

【技术特征摘要】
1.一种可定制裁减的网络舆情证据保全方法,其特征在于:包括以下步骤:1)采集舆情信息;2)对采集的舆情信息,根据用户设置的舆情信息过滤规则进行舆情信息过滤,并采用自动情感判别算法和全文检索算法进行过滤处理;3)对舆情信息进行词库匹配;4)对于词库匹配成功的舆情信息进行屏幕截屏并保存。2.根据权利要求1所述的一种可定制裁减的网络舆情证据保全方法,其特征在于:所述步骤2)中的自动情感判别算法主要包括以下步骤:A、对于采集的舆情信息进行分词提取;B、对于提取的分词进行词汇抽取;C、根据正面情感词库和负面情感词库对抽取的词汇进行情感词匹配并进行情感词正面、负面、中性的分值分类判定;D、读取词汇,并根据情感分值进...

【专利技术属性】
技术研发人员:张剑
申请(专利权)人:深圳市网安计算机安全检测技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1