The invention discloses a method for Internet traffic information collection and processing, including the data acquisition platform in accordance with the preset on the traffic hot Thesaurus of Internet media on public opinion information search, monitor and download, store it in the library and public opinion information passed to the data processing platform; the data processing platform based on the traffic public opinion information downloaded in accordance with the predetermined requirements of filtering, analysis and processing management business formed to meet the needs of the traffic will be stored in the content of public opinion, public opinion information base and transfer to the business processing and data analysis platform; the business process and data processing and analyzing platform to meet the management judged the traffic public opinion content business needs according to the needs of managers, and the results stored in the public information library and transfer to the business management module and monitoring And early warning and reporting module, and ultimately realize the public opinion audit, public opinion, send police, public opinion processing and big data analysis function.
【技术实现步骤摘要】
一种互联网交通舆情信息采集和处理的方法
本专利技术涉及信息采集领域,特别是涉及一种互联网交通舆情信息采集和处理的方法。
技术介绍
随着经济的快速发展,城市交通发展增速,交通新闻信息量越来越大,交通管理部门对掌控当前交通信息和舆情的需求日益强烈。现有技术中是通过以下两个技术对网站、微博、微信等互联网新闻进行收集。网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。用户从互联网上可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学,数据挖掘 ...
【技术保护点】
一种互联网交通舆情信息采集和处理的方法,其特征在于:包括数据采集平台,数据处理平台,业务处理和数据研判平台,监控、预警和报告模块,业务办理模块和舆情信息库模块;所述数据采集平台、数据处理平台、业务处理和数据研判平台依次电连接,且上述三个平台均与所述舆情信息库电连接,所述业务处理和数据研判平台电连接监控、预警和报告模块以及业务办理模块;所述互联网交通舆情信息采集和处理的方法包括通过数据采集平台按照预设的热点词库对互联网媒体上交通舆情信息进行搜索、监控和下载,将其储存在所述舆情信息库并传递到数据处理平台;所述数据处理平台通过对下载的所述交通舆情信息按照预定要求进行过滤、分析和处理形成满足管理者业务需要的交通舆情内容,将其储存在所述舆情信息库并传递到业务处理和数据研判平台;所述业务处理和数据研判平台根据管理者的需要对满足管理者业务需要的所述交通舆情内容进行处理和研判,并将结果储存在所述舆情信息库并传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。
【技术特征摘要】
1.一种互联网交通舆情信息采集和处理的方法,其特征在于:包括数据采集平台,数据处理平台,业务处理和数据研判平台,监控、预警和报告模块,业务办理模块和舆情信息库模块;所述数据采集平台、数据处理平台、业务处理和数据研判平台依次电连接,且上述三个平台均与所述舆情信息库电连接,所述业务处理和数据研判平台电连接监控、预警和报告模块以及业务办理模块;所述互联网交通舆情信息采集和处理的方法包括通过数据采集平台按照预设的热点词库对互联网媒体上交通舆情信息进行搜索、监控和下载,将其储存在所述舆情信息库并传递到数据处理平台;所述数据处理平台通过对下载的所述交通舆情信息按照预定要求进行过滤、分析和处理形成满足管理者业务需要的交通舆情内容,将其储存在所述舆情信息库并传递到业务处理和数据研判平台;所述业务处理和数据研判平台根据管理者的需要对满足管理者业务需要的所述交通舆情内容进行处理和研判,并将结果储存在所述舆情信息库并传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。2.根据权利要求1所述的互联网交通舆情信息采集和处理的方法,其特征在于:所述数据采集平台包括网络搜索模块、信息监控模块和数据下载模块;所述数据处理平台包括数据过滤模块、语义分析模块和数据处理模块;所述业务处理和数据研判平台包括业务办理模块、终端决策模块、数据统计模块和研判分析模块。3.根据权利要求1所述的互联网交通舆情信息采集和处理的方法,其特征在于:所述数据采集平台基于网络爬虫技术按照预设的热点词库对互联网媒体上指定的交通舆情信息数据源进行网络搜索,分析实时搜索的交通舆情信息,判断是否符合交通管理者的交通舆情信息采集业务的需要,将符合交通管理者采集业务需要的交通舆情信息的相关网页信息资源进行下载,将下载的交通舆情信息存储到舆情信息库同时传递到数据处理平台;所述数据处理平台基于数据挖掘技术按照预定要求通过数据的网络挖掘、文本挖掘和语义分析实现将下载的交通舆情信息进行定制化处理,对交通舆情信息进行基础过滤工作,去除下载重复、下载资源不完整、时间过期的信息,进行语义分析后,形成满足交通管理者业务需要的交通舆情内容,将交通舆情内容按照规定的编码格式和储存规则存储到舆情信息库同时传递到业务处理和数据研判平台;所述业务处理和数据研判平台通过人机交互设备面向公安交通管理人员开放,根据公安交通管理人员的需要实现对所述交通舆情内容的业务处理和数据研判功能,将其存储到舆情信息库同时传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。4.根据权利要求3所述的互联网交通舆情信息采集和处理的方法,其特征在于:所述热点词库包...
【专利技术属性】
技术研发人员:常思阳,刘瑞伟,王亚利,张奕,赵新勇,王锐锋,孙建宏,
申请(专利权)人:北京易华录信息技术股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。