一种互联网交通舆情信息采集和处理的方法技术

技术编号:16301426 阅读:67 留言:0更新日期:2017-09-26 19:31
本发明专利技术公开了一种互联网交通舆情信息采集和处理的方法,包括通过数据采集平台按照预设的热点词库对互联网媒体上交通舆情信息进行搜索、监控和下载,将其储存在舆情信息库并传递到数据处理平台;所述数据处理平台通过对下载的所述交通舆情信息按照预定要求进行过滤、分析和处理形成满足管理者业务需要的交通舆情内容,将其储存在舆情信息库并传递到业务处理和数据研判平台;所述业务处理和数据研判平台根据管理者的需要对满足管理者业务需要的所述交通舆情内容进行处理和研判,并将结果储存在所述舆情信息库并传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。

Method for collecting and processing Internet traffic public opinion information

The invention discloses a method for Internet traffic information collection and processing, including the data acquisition platform in accordance with the preset on the traffic hot Thesaurus of Internet media on public opinion information search, monitor and download, store it in the library and public opinion information passed to the data processing platform; the data processing platform based on the traffic public opinion information downloaded in accordance with the predetermined requirements of filtering, analysis and processing management business formed to meet the needs of the traffic will be stored in the content of public opinion, public opinion information base and transfer to the business processing and data analysis platform; the business process and data processing and analyzing platform to meet the management judged the traffic public opinion content business needs according to the needs of managers, and the results stored in the public information library and transfer to the business management module and monitoring And early warning and reporting module, and ultimately realize the public opinion audit, public opinion, send police, public opinion processing and big data analysis function.

【技术实现步骤摘要】
一种互联网交通舆情信息采集和处理的方法
本专利技术涉及信息采集领域,特别是涉及一种互联网交通舆情信息采集和处理的方法。
技术介绍
随着经济的快速发展,城市交通发展增速,交通新闻信息量越来越大,交通管理部门对掌控当前交通信息和舆情的需求日益强烈。现有技术中是通过以下两个技术对网站、微博、微信等互联网新闻进行收集。网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。用户从互联网上可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学,数据挖掘需要两个关键技术:网络挖掘和文本挖掘。网络挖掘侧重于分析和挖掘网页相关的数据,包括文本、链接结构和访问统计(最终形成用户网络导航)。一个网页中包含了多种不同的数据类型,因此网络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。文本挖掘包含文本收集、文本分析、特征修剪、文档聚类、文档分类等关键技术。但是现有技术中的网络爬虫技术,针对性不强,缺少准确的行业热点专题词库支撑,获取内容繁多,不能针对交通类信息进行有效采集。网络和文本数据挖掘作为新兴技术,缺少基于交通业务的定制化模型,不能及时、有效处理和分析出有效的交通类信息。现有技术中对互联网中的交通舆情信息采集和处理的方法是通过网站、微博、微信等互联网新闻渠道,去获取具体公安交通管理部门相关的舆情新闻内容并对新闻舆情类内容的监控和管理,主要从信息监控、数据采集、内容分析到业务处理、统计研判的过程采取的还是半人工、半系统处理的方式,不能全面实现自动化。因此,如何对快速全方位掌握、监控和管理交通新闻舆情,提供更好的现代化支持,就成为本领域技术人员亟需解决的问题。
技术实现思路
本专利技术的目的在于提供一种互联网交通舆情信息采集和处理的方法,以克服现有技术中存在的上述缺陷。一种互联网交通舆情信息采集和处理的方法,就是要解决从信息监控、数据采集、内容分析到业务处理、统计研判的全自动化过程。通过建设舆情监控和管理平台,来实现舆情信息的自动化处理过程,为交通管理者提供最及时、最有效的交通舆情内容和分析结果。通过及时发现、获取相关的舆情信息,并快速指派人员处理,为公安交通管理层全面掌握社情民意,舆情动态,做出正确舆论引导。通过对大量数据分析,发现薄弱环节,为决策层提供针对性帮助。为实现上述目的,本专利技术提供一种互联网交通舆情信息采集和处理的方法,其包括数据采集平台,数据处理平台,业务处理和数据研判平台,监控、预警和报告模块,业务办理模块和舆情信息库模块;所述数据采集平台、数据处理平台、业务处理和数据研判平台依次电连接,且上述三个平台均与所述舆情信息库电连接,所述业务处理和数据研判平台电连接监控、预警和报告模块以及业务办理模块;所述互联网交通舆情信息采集和处理的方法包括通过数据采集平台按照预设的热点词库对互联网媒体上交通舆情信息进行搜索、监控和下载,将其储存在所述舆情信息库并传递到数据处理平台;所述数据处理平台通过对下载的所述交通舆情信息按照预定要求进行过滤、分析和处理形成满足管理者业务需要的交通舆情内容,将其储存在所述舆情信息库并传递到业务处理和数据研判平台;所述业务处理和数据研判平台根据管理者的需要对满足管理者业务需要的所述交通舆情内容进行处理和研判,并将结果储存在所述舆情信息库并传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。优选地,所述数据采集平台包括网络搜索模块、信息监控模块和数据下载模块;所述数据处理平台包括数据过滤模块、语义分析模块和数据处理模块;所述业务处理和数据研判平台包括业务办理模块、终端决策模块、数据统计模块和研判分析模块。优选地,所述数据采集平台基于网络爬虫技术按照预设的热点词库对互联网媒体上指定的交通舆情信息数据源进行网络搜索,分析实时搜索的交通舆情信息,判断是否符合交通管理者的交通舆情信息采集业务的需要,将符合交通管理者采集业务需要的交通舆情信息的相关网页信息资源进行下载,将下载的交通舆情信息存储到舆情信息库同时传递到数据处理平台;所述数据处理平台基于数据挖掘技术按照预定要求通过数据的网络挖掘、文本挖掘和语义分析实现将下载的交通舆情信息进行定制化处理,对交通舆情信息进行基础过滤工作,去除下载重复、下载资源不完整、时间过期的信息,进行语义分析后,形成满足交通管理者业务需要的交通舆情内容,将交通舆情内容按照规定的编码格式和储存规则存储到舆情信息库同时传递到业务处理和数据研判平台;所述业务处理和数据研判平台通过人机交互设备面向公安交通管理人员开放,根据公安交通管理人员的需要实现对所述交通舆情内容的业务处理和数据研判功能,将其存储到舆情信息库同时传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。优选地,所述热点词库包括7个交通管理专题和每个交通管理专题对应的若干关键词。优选地,所述7个交通管理专题包括交通事件、热点话题、交通执法、交通组织和管控、恶意言论、交通建议和问题举报以及政策法规。优选地,所述交通事件对应的关键词包括车辆失控、拥堵、交通事故、施工、占道、相撞、剐蹭、女司机、交通肇事、逃逸、车祸、翻车、追尾、高速、高速公路、爆胎、自燃、路况和大货车;热点话题对应的关键词包括网约车、共享单车、拼车、租车、绿色出行和电动汽车;交通执法对应的关键词包括违章、违规上路、违法乱纪、罚单、超载、逆行、超速、违法停车、套牌、电子警察、抓拍、闯红灯、抢黄灯、酒驾、无照驾驶、酒后驾驶、违章停车、假号牌、伪造车牌、假车牌、套牌、逃逸车辆、袭警、飙车和闯卡;交通组织和管控对应的关键词包括重大活动、安保、交警、交通警察、交警总队、交警支队、交警大队、交警中队、车管所、协警、单双号、限行、限速、禁行、缉查布控、封路、驾照、驾校、车流、收费站和绕行;恶意言论对应的关键词包括受贿、贪污、腐败、打人、骂人和送礼;交通建议和问题举报对应的关键词包括乱收费、收黑钱、黑车、有法不依、秉公执法、红绿灯、违规收费和钓鱼执法;政策法规本文档来自技高网
...
一种互联网交通舆情信息采集和处理的方法

【技术保护点】
一种互联网交通舆情信息采集和处理的方法,其特征在于:包括数据采集平台,数据处理平台,业务处理和数据研判平台,监控、预警和报告模块,业务办理模块和舆情信息库模块;所述数据采集平台、数据处理平台、业务处理和数据研判平台依次电连接,且上述三个平台均与所述舆情信息库电连接,所述业务处理和数据研判平台电连接监控、预警和报告模块以及业务办理模块;所述互联网交通舆情信息采集和处理的方法包括通过数据采集平台按照预设的热点词库对互联网媒体上交通舆情信息进行搜索、监控和下载,将其储存在所述舆情信息库并传递到数据处理平台;所述数据处理平台通过对下载的所述交通舆情信息按照预定要求进行过滤、分析和处理形成满足管理者业务需要的交通舆情内容,将其储存在所述舆情信息库并传递到业务处理和数据研判平台;所述业务处理和数据研判平台根据管理者的需要对满足管理者业务需要的所述交通舆情内容进行处理和研判,并将结果储存在所述舆情信息库并传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。

【技术特征摘要】
1.一种互联网交通舆情信息采集和处理的方法,其特征在于:包括数据采集平台,数据处理平台,业务处理和数据研判平台,监控、预警和报告模块,业务办理模块和舆情信息库模块;所述数据采集平台、数据处理平台、业务处理和数据研判平台依次电连接,且上述三个平台均与所述舆情信息库电连接,所述业务处理和数据研判平台电连接监控、预警和报告模块以及业务办理模块;所述互联网交通舆情信息采集和处理的方法包括通过数据采集平台按照预设的热点词库对互联网媒体上交通舆情信息进行搜索、监控和下载,将其储存在所述舆情信息库并传递到数据处理平台;所述数据处理平台通过对下载的所述交通舆情信息按照预定要求进行过滤、分析和处理形成满足管理者业务需要的交通舆情内容,将其储存在所述舆情信息库并传递到业务处理和数据研判平台;所述业务处理和数据研判平台根据管理者的需要对满足管理者业务需要的所述交通舆情内容进行处理和研判,并将结果储存在所述舆情信息库并传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。2.根据权利要求1所述的互联网交通舆情信息采集和处理的方法,其特征在于:所述数据采集平台包括网络搜索模块、信息监控模块和数据下载模块;所述数据处理平台包括数据过滤模块、语义分析模块和数据处理模块;所述业务处理和数据研判平台包括业务办理模块、终端决策模块、数据统计模块和研判分析模块。3.根据权利要求1所述的互联网交通舆情信息采集和处理的方法,其特征在于:所述数据采集平台基于网络爬虫技术按照预设的热点词库对互联网媒体上指定的交通舆情信息数据源进行网络搜索,分析实时搜索的交通舆情信息,判断是否符合交通管理者的交通舆情信息采集业务的需要,将符合交通管理者采集业务需要的交通舆情信息的相关网页信息资源进行下载,将下载的交通舆情信息存储到舆情信息库同时传递到数据处理平台;所述数据处理平台基于数据挖掘技术按照预定要求通过数据的网络挖掘、文本挖掘和语义分析实现将下载的交通舆情信息进行定制化处理,对交通舆情信息进行基础过滤工作,去除下载重复、下载资源不完整、时间过期的信息,进行语义分析后,形成满足交通管理者业务需要的交通舆情内容,将交通舆情内容按照规定的编码格式和储存规则存储到舆情信息库同时传递到业务处理和数据研判平台;所述业务处理和数据研判平台通过人机交互设备面向公安交通管理人员开放,根据公安交通管理人员的需要实现对所述交通舆情内容的业务处理和数据研判功能,将其存储到舆情信息库同时传递到业务办理模块以及监控、预警和报告模块,最终实现舆情审核、舆情派警、舆情处理和大数据分析功能。4.根据权利要求3所述的互联网交通舆情信息采集和处理的方法,其特征在于:所述热点词库包...

【专利技术属性】
技术研发人员:常思阳刘瑞伟王亚利张奕赵新勇王锐锋孙建宏
申请(专利权)人:北京易华录信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1