【技术实现步骤摘要】
一种市场监管互联网情报监测与分析系统
[0001]本专利技术属于互联网信息采集分析
,具体涉及一种市场监管互联网情报监测与分析系统。
技术介绍
[0002]当前互联网已成为获取各类信息的重要平台,在互联网大量的信息中也存在许多与市场监管执法相关的信息,比如:消费者吐槽、投诉、曝光、报料等,此类信息是监管执法的重要线索来源,同时市场监管部门也迫切的需要加强对市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力。加强情报工作的建设,利用信息技术提高情报分析效率,建立健全功能完善的情报信息中心和快速反应机制,是提高执法办案工作的精细化、科技化、法制化水平,充分发挥市场监管和行政执法职能的当务之急和重要保证。
[0003]但互联网信息庞杂,信息采集与处理是一个技术难点,同时市场监管违法行为的判定分析技术也成为本领域亟需解决的一个技术问题。
技术实现思路
[0004]针对于上述现有技术的不足,本专利技术的目的在于提供一种市场监管互联网情报监测与分析系统,以解决现有技术中互联网信息采集困难和市 ...
【技术保护点】
【技术特征摘要】
1.一种市场监管互联网情报监测与分析系统,其特征在于,包括:CNN模型构建模块、互联网信息采集模块、情报信息预处理模块和情报信息挖掘模块;其中,所述CNN模型构建模块,用于使用市场监管违法行为样本构建CNN违法行为分析模型;所述互联网信息采集模块,用于定向监测互联网站点,采集互联网公开信息,以获取情报信息;所述情报信息预处理模块,用于对所述采集到的情报信息进行清洗去重,通过URL判定和文字乱码判定过滤无效信息,对清洗后的情报信息进行分词处理;所述情报信息挖掘模块,用于使用CNN违法行为分析模型对分词处理后的情报信息进行违法行为的判定、市场主体识别和所属地区识别。2.根据权利要求1所述的市场监管互联网情报监测与分析系统,其特征在于,所述构建CNN违法行为分析模型具体包括:11)获取市场监管违法行为的样本库;12)使用结巴分词对市场监管违法行为的样本库中样本文章进行分词预处理、去除停用词、去除低频词;13)使用TF
‑
IDF算法提取每类样本前200个词作为特征关键词,计算结果作为关键词在对应违法行为分类中的特征权重值;其中,特征关键词在某类违法行为样本中不存在时,该特征关键词在该类违法行为中的权重值为0,构建特征词库;14)使用构建后的特征词库对样本文档建模;获取样本文档的词组,通过查找样本分类下的各个出现词的权重值,组合成一个表示该文档的文档向量,如下:[w1,w2,0,0,0,w3,
…
wn,Ti](1)其中,wi代表该词Di在Ti这个违法行为分类中的权重值;以实现词汇信息到语义空间的映射;将所有样本数据按上式(1)进行文档表示,获得一个文档词向量模型;15)将文档向量模型添加到神经网络中进行训练,得到准确率、召回率,经过反复评估确认后得到CNN违法行为分析模型。3.根据权利要求1所述的市场监管互联网情报监测与分析系统,其特征在于,所述互联网信息采集模块通过配置正则表达式解析网站中某个版块下的链接来获得帖子列表,再通过CSS选择器、JSON规则和正则表达式配置帖子的标题解析规则、作者解析规则、发布时间解析规则和正文解析规则,实现网页内容的结构化。4.根据权利要求3所述的市场监管互联网情报监测与分析系统,其特征在于,所述互联网信息采集模块配置有需要采集的互联网站点和频道版块,并配置有采集版块规则和采集帖子规则,对指定的互联网站点进行不间断采集,并实现文章标题、关键词、敏感词、发布时间、作者、摘要的识别与集;具体包括:21)采集网站管理:对需要采集的网站进行管理,并维护该网站的版块栏目,作为采集任务;22)网站版块规则配置:根据采集网站配置的采集任务,进行版块规则配置,包括配置版块规则名称、站点名称匹配、页面编码、版块页数、版块URL、帖子规则类型、帖子UID规则和帖子链接规则;23)网站版块解析:根据版块规则配置,通过正则表达式解析regex.Matcher和CSS选择器解析获取需要采集的帖子链接列表;
24)网站帖子规则配置:配置帖子规则名称、站点名称...
【专利技术属性】
技术研发人员:周宏印,丁铁,江涛,王云哲,张琛,邓丹,李雨桐,徐玉婷,张恩思,吴诗程,陈杰,张泽澄,
申请(专利权)人:南京莱斯信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。