【技术实现步骤摘要】
一种基于信息监测的关键词发现方法、系统和电子设备
[0001]涉及自信息识别
,具体涉及一种基于信息监测的关键词发现方法、 系统和电子设备。
技术介绍
[0002]虚拟的网络世界与现实世界是对等的,现实世界中有美与丑、善与恶, 网络世界里同样也有美与丑、善与恶。在互联网刚刚兴起的年代,人们上网 主要为了查询资料和信息,彼时不良信息还非常有限。然而,随着互联网的 不断发展,人们开始在网络上追求娱乐、寻找商机、阅读新闻,此时不良信 息开始逐渐扩散。近几年,不良信息甚至发展成为一种产业,并开始从单纯 的“知识型”信息向“谋利型”转变,而且手段多样、形式复杂,其中不乏 很多违反法律、违反道德的不良信息,如何快速从数量庞大的众多网站中查 找出含有不良信息的,是网络信息安全的主要研究方向之一。
[0003]《中华人民共和国网络安全法》相关规定,网络运营者应当对用户发布 的信息进行管理,发现其存在法律法规所禁止的信息时,应当停止传输并消 除该信息。目前,各通讯运营商通过互联网网站安全监测平台等实现对访问 网站的IP、端口和内 ...
【技术保护点】
【技术特征摘要】
1.一种基于信息监测的关键词发现方法,其特征在于,所述关键词发现方法包括如下步骤:步骤S101、监测计划调度模块将监测词汇导入给监测目标获取模块使用;步骤S102、所述监测目标获取模块通过监测计划中设定的搜索引擎,用监测词汇作为搜索引擎的搜索词汇进行搜索,并将搜索结果交给所述监测内容采集模块进行下一步的处理;步骤S103、所述监测内容采集模块对域名下的网站使用定向爬虫获取网站的内容,将通过所述爬取所获得的所述网页的正文发送给所述建立词集模块进行处理;步骤S104、所述建立词集模块对所述网页的正文进行处理,将生成的词库发送给关键词推荐管理模块处理;步骤S105、所述关键词推荐管理模块使用关键词推荐算法对所述词库中的词语进行训练,求解相似度并获得关键词因子,将所述关键词因子进行排列组合,并把排列组合后的关键词因子发送至所述人工审计模块;步骤S106、所述人工审计模块将所述排列组合后的关键词因子,交给审核人员进行人工审核,并根据人工审核结果,将关键词因子添加至关键词策略模块和/或关键词知识库中。2.根据权利要求1所述的关键词发现方法,其特征在于,步骤S102中所述用监测词汇作为搜索引擎的搜索词汇进行搜索,具体包括:把每个搜索引擎的前10条搜索结果,根据域名去重。3.根据权利要求1所述的关键词发现方法,其特征在于,获取网站的所述内容中包括网页的正文以及网页上的链接。4.根据权利要求1所述的关键词发现方法,其特征在于,步骤S103中将通过所述爬取所获得的所述网页的正文发送给所述建立词集模块进行处理之前还包括:将所述网页上的链接指向网页的正文和链接进行爬取,并不断重复所述爬取步骤,直至到达所述监测计划调度模块中设置的爬取层次为止。5.根据权利要求1所述的关键词发现方法,其特征在于,步骤S104中将生成的词库发送给关键词推荐管理模块处理之前还包括:根据句子或者段落对所述网页的正文进行划分,并使用分词工具进行分词处理,在去除其中重复的词汇后生成词库。6.根据权利...
【专利技术属性】
技术研发人员:张裕桥,万志勇,林壮源,
申请(专利权)人:中数通信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。