一种网站不良信息监测系统及其监测方法技术方案

技术编号:24802325 阅读:39 留言:0更新日期:2020-07-07 21:31
本发明专利技术公开了一种网站不良信息监测系统及其监测方法,监测系统包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端。本发明专利技术将音频信息和视频信息中的音频数据也纳入网站不良信息监测范围,但是由于音频数据现有的监测手段主要是人工监听和语音识别两种,人工监听存在工作量大的问题,语音识别存在准确率低的问题,本发明专利技术通过将这两种音频数据监测手段有机结合,克服结合过程中存在的各种难题,在保证监测准确性的同时,极大缩减了人工监听的工作量,具有很好的推广价值;同时系统智能鉴别和人工核查结合的方式,同样可以用于文本、图片(包含视频帧截图)的核查,提高网站不良信息鉴别的准确性。

【技术实现步骤摘要】
一种网站不良信息监测系统及其监测方法
本专利技术涉及网络信息安全
,尤其是一种网站不良信息监测系统及其监测方法。
技术介绍
虚拟的网络世界与现实世界是对等的,现实世界中有美与丑、善与恶,网络世界里同样也有美与丑、善与恶。在互联网刚刚兴起的年代,人们上网主要为了查询资料和信息,彼时不良信息还非常有限。然而,随着互联网的不断发展,人们开始在网络上追求娱乐、寻找商机、阅读新闻,此时不良信息开始逐渐扩散。近几年,不良信息甚至发展成为一种产业,并开始从单纯的“知识型”信息向“谋利型”转变,而且手段多样、形式复杂,其中不乏很多违反法律、违反道德的不良信息,其中以色情类内容为主,还参杂着赌博、诈骗、枪械贩卖等违法内容。打击发布不良信息的网站,一直是我国有关单位的重要职责。如何快速从数量庞大的众多网站中查找出含有不良信息的,是网络信息安全的主要研究方向之一。国家知识产权局于2018年1月5日公开的专利技术专利申请CN107547555A公开了一种网站安全监测方法,将提取的网页内容信息按照文本、图片、视频进行分类鉴别,并通过设置多重阈值防止误判。此本文档来自技高网...

【技术保护点】
1.一种网站不良信息监测系统,其特征在于,包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端;/n所述监测设备获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息;/n所述监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至所述语音识别服务器;/n所述语音识别服务器将音频段内容转换成文本并返回至所述监测设备,所述监测设备对文本进行不良关键词检索,并将匹配到不良关键词的文本及其对应音频段、日志文件发送至所述人工监听...

【技术特征摘要】
1.一种网站不良信息监测系统,其特征在于,包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端;
所述监测设备获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息;
所述监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至所述语音识别服务器;
所述语音识别服务器将音频段内容转换成文本并返回至所述监测设备,所述监测设备对文本进行不良关键词检索,并将匹配到不良关键词的文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和文本进行一一对应并显示,以供人工核查;
所述监测设备对该网站网页中包含的文本、图片和视频进行鉴别,若鉴别出存在不良信息,则将包含不良信息的网页链接发送至所述人工监听核查终端,以供人工核查。


2.根据权利要求1所述的网站不良信息监测系统,其特征在于,所述日志文件包括但不限于来源网页链接、音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。


3.根据权利要求1所述的网站不良信息监测系统,其特征在于,所述监测设备与自然语言处理服务器交互,所述语音识别服务器将音频段内容转换成一次文本并返回至所述监测设备,所述监测设备再将所述语音识别服务器返回的一次文本发送至所述自然语言处理服务器,所述自然语言处理服务器将一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至所述监测设备;
所述监测设备对二次文本进行不良关键词检索,并将匹配到不良关键词的二次文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和二次文本进行一一对应并显示,以供人工核查。


4.一种权利要求3所述的网站不良信息监测系统的监测方法,其特征在于,包括以下步骤:
步骤1,监测设备利用网路爬虫获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;
步骤2,对于该网站网页中包含的...

【专利技术属性】
技术研发人员:虞焰兴
申请(专利权)人:安徽声讯信息技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1