【技术实现步骤摘要】
一种网站不良信息监测系统及其监测方法
本专利技术涉及网络信息安全
,尤其是一种网站不良信息监测系统及其监测方法。
技术介绍
虚拟的网络世界与现实世界是对等的,现实世界中有美与丑、善与恶,网络世界里同样也有美与丑、善与恶。在互联网刚刚兴起的年代,人们上网主要为了查询资料和信息,彼时不良信息还非常有限。然而,随着互联网的不断发展,人们开始在网络上追求娱乐、寻找商机、阅读新闻,此时不良信息开始逐渐扩散。近几年,不良信息甚至发展成为一种产业,并开始从单纯的“知识型”信息向“谋利型”转变,而且手段多样、形式复杂,其中不乏很多违反法律、违反道德的不良信息,其中以色情类内容为主,还参杂着赌博、诈骗、枪械贩卖等违法内容。打击发布不良信息的网站,一直是我国有关单位的重要职责。如何快速从数量庞大的众多网站中查找出含有不良信息的,是网络信息安全的主要研究方向之一。国家知识产权局于2018年1月5日公开的专利技术专利申请CN107547555A公开了一种网站安全监测方法,将提取的网页内容信息按照文本、图片、视频进行分类鉴别,并通过设置 ...
【技术保护点】
1.一种网站不良信息监测系统,其特征在于,包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端;/n所述监测设备获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息;/n所述监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至所述语音识别服务器;/n所述语音识别服务器将音频段内容转换成文本并返回至所述监测设备,所述监测设备对文本进行不良关键词检索,并将匹配到不良关键词的文本及其对应音频段、日志文 ...
【技术特征摘要】
1.一种网站不良信息监测系统,其特征在于,包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端;
所述监测设备获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息;
所述监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至所述语音识别服务器;
所述语音识别服务器将音频段内容转换成文本并返回至所述监测设备,所述监测设备对文本进行不良关键词检索,并将匹配到不良关键词的文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和文本进行一一对应并显示,以供人工核查;
所述监测设备对该网站网页中包含的文本、图片和视频进行鉴别,若鉴别出存在不良信息,则将包含不良信息的网页链接发送至所述人工监听核查终端,以供人工核查。
2.根据权利要求1所述的网站不良信息监测系统,其特征在于,所述日志文件包括但不限于来源网页链接、音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。
3.根据权利要求1所述的网站不良信息监测系统,其特征在于,所述监测设备与自然语言处理服务器交互,所述语音识别服务器将音频段内容转换成一次文本并返回至所述监测设备,所述监测设备再将所述语音识别服务器返回的一次文本发送至所述自然语言处理服务器,所述自然语言处理服务器将一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至所述监测设备;
所述监测设备对二次文本进行不良关键词检索,并将匹配到不良关键词的二次文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和二次文本进行一一对应并显示,以供人工核查。
4.一种权利要求3所述的网站不良信息监测系统的监测方法,其特征在于,包括以下步骤:
步骤1,监测设备利用网路爬虫获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;
步骤2,对于该网站网页中包含的...
【专利技术属性】
技术研发人员:虞焰兴,
申请(专利权)人:安徽声讯信息技术有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。