当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于微博的交通数据获取方法技术

技术编号:10656741 阅读:183 留言:0更新日期:2014-11-19 17:30
本发明专利技术公开一种基于微博的交通数据获取方法,通过采集公开的交通相关微博,通过对每条微博进行分词处理,获取每条微博的词语组成;在分词结果的基础上,生成每条微博的空间向量,通过对每条微博的空间向量进行支持向量机训练及分类分析,最终实现对微博的计算机自动分类判别,并提取出有价值的信息。该发明专利技术方法从微博中纷繁大量的、无序的数据中,自动、快速、并行的获取交通相关数据,同时将数据中的特征可视化的表现出来,并准确的对数据进行筛选分类。本发明专利技术方法在很低的投入下便能获取大量的、分类的交通相关数据,具有较大的实用意义。

【技术实现步骤摘要】
一种基于微博的交通数据获取方法
本专利技术涉及一种数据采集及处理方法,具体涉及一种基于微博的交通数据获取方法。
技术介绍
随着我国社会经济的迅猛发展,各大城市均产生了一系列以交通拥堵、交通环境污染及交通事故为代表的问题,其根源是交通供给与需求间的失衡。相较于数学、物理等纯粹的自然科学对公式与实验的依赖,交通科学则更多的是一项系统工程科学。因而,对于此类问题的解决,并不能完全寄希望于理论公式的迭代与模拟仿真实验。在探寻交通问题解决方法、进行交通设计、交通设施新建、改扩建等工程时,必须基于对现实交通需求的合理有效把握,这其中就需要对交通的参与者进行科学、有效的调查。在我国,由于各个城市的人口较多,因而对于交通系统的调查将会耗费大量的人力、财力与时间。以城市的公交线网优化为例,假若城市的常住人口为500万人,采用2%的抽样比例调查城市居民的出行分布与出行需求,并根据此优化公交线网。这其中涉及到的城市居民就有10万人,并且还需要很多的调查资金投入。并且,目前我国的交通调查还停留在较为陈旧的人工调查阶段,没有很好的利用一些信息化技术。如何在较少的资金与人力投入的前提下,方便、快速、准确的获取质量较高的交通数据,是摆在城市管理者与交通学者面前的一道难题,亟待提出新的解决方案。在我国现有的交通数据的调查与获取过程中,人工的调查方式存在的包含耗时、耗人力、耗资金等在内的缺陷,以及该方式获取的交通数据存在的时效性较低、覆盖面较窄等的问题。随着我国网络的迅速普及,越来越多的网民在使用微博这一社交网络,并且具有移动定位功能的手机微博(手机微博用户可以实时发布有关交通状况的微博内容)更是给了交通数据的采集以非常好的解决途经。据统计,世界最大的微博网站Twitter,共有用户6.4亿,每天会产生5800万条微博。这其中,约有2%的微博含有交通关键词。而我国最大的微博网站新浪微博,每天包含“公交”关键词的微博数量则是在10万条以上。如若能将微博中蕴含的大量的交通相关数据进行自动的提取与分类,并将其利用起来,可以降低目前对于交通调查的人力与材料投入。并且由于微博往往都是实时发布的,采用基于微博的交通相关数据也能保证升交通分析的时效性。
技术实现思路
专利技术目的:本专利技术的目的在于解决现有技术中的不足,提供一种基于微博的交通数据获取方法。技术方案:本专利技术的一种基于微博的交通数据获取方法,具体包含以下步骤:步骤1、根据需要采集微博数据:根据需要获取的交通数据类型,选取待采集的微博关键词,然后通过微博的官方开放平台及其API接口,采集含有上述微博关键词的所有微博;步骤2、预处理所采集的微博:删除步骤1中采集到的微博中的冗余微博,设剩余微博的总数量为N,然后将这N条微博按照微博发出的时间先后顺序存入微博数据库S1中;步骤3、选取部分微博进行人工分类:选取微博数据库S1中的部分微博进行人工分类;步骤4、将微博进行分词及删除停用词处理,并生成微博数据的词云;步骤5、生成每条微博的空间向量;步骤6、训练支持向量机;步骤7、微博数据的自动分类。进一步的,所述步骤4的具体方法为:(4.1)采用ICTCLAS法,依次将微博数据库S1中的每条微博进行分词处理;(4.2)删除步骤(4.1)分词结果中的停用词,并记录第i条微博在分词并删除停用词后所得到的词语数量Pi;(4.3)将该Pi个词语按照分词的拼音字母顺序存入微博分词数据库S2中;(4.4)统计微博分词数据库S2中出现的所有不同的词语的总数M,将每个词语按照其在微博分词数据库S2中出现的次数从高到低排序并存入分词统计数据库S3中,并统计分词统计数据库S3中第j条词语j在S2中出现的总次数kj;(4.5)选择出现次数前100的词语绘制词云;其中,i为微博数据库S1中各条微博的序号,i为整数且1≤i≤N,Pi为第i条微博分词并删除停用词后的词语数量,Pi为大于0的整数,M为微博分词数据库S2中出现的所有不同的词语的总数,M为大于0的整数;j为将词语按照其在所有微博中出现的次数从高到低排序后的词语的序号,j为整数且1≤j≤M;kj为分词结果中词语j在所有微博中出现的总次数,kj为大于0的整数。进一步的,所述步骤5的具体方法为:依次将步骤2中微博数据库S1中的第i条微博转化为空间向量Ci,Ci的空间坐标为(ci1,ci2,ci3,…cij,…ciM),其中,cij为第i条微博转化的空间向量中第j个坐标值,cij为大于等于0的整数。进一步的,所示步骤6的具体方法为:将步骤3中在微博数据库S1中的进行人工分类的部分微博的分类序号及其在步骤5中所对应的空间向量作为输入量,带入Matlab软件环境下并训练支持向量机。进一步的,所述步骤7的具体步骤为:将步骤3中在微博数据库S1中的未进行人工分类的部分微博的分类序号及其在步骤5中所对应的空间向量作为输入量,带入步骤6中训练好的支持向量机中,得到每条微博对应的分类。进一步的,所述步骤1中所述微博关键词分为两部分,第一部分为属性关键词,包含需要获取的交通数据的地域范围、时间范围;第二部分为类型关键词,为需要获取的交通数据的具体细分类型,包含但不限于驾驶员、乘客、行人、公共交通、道路、桥梁、交通政策、交通法规、交通事故、交通发展、交通管理、交通控制、交通规划、交通行为。进一步的,所述步骤2中删除冗余微博的方法为:采用KMP法搜索所述步骤1中采集得到的所有微博,找寻其中完全相同的微博即转发微博,然后对每组完全相同的微博仅保留一条,并删除其余的完全相同的微博。进一步的,所述步骤3具体包括以下步骤:随机的选取微博数据库S1中的部分微博,其数量为微博数据库S1中所有微博条数的30%和3000条的较小值,选择微博的方法为简单随机抽样,根据该微博的内容,对微博进行人工分类,分类的类别有:1)与需要获取的交通数据相关的新闻类微博;2)与需要获取的交通数据不相关的新闻类微博;3)与需要获取的交通数据不相关的个人发布的微博;4);与需要获取的交通数据相关的个人发布的微博。进一步的,所述步骤5中空间向量Ci的转化,包含如下步骤:(5.1)空间坐标初始化:将Ci的空间坐标初始化为一个全是0的坐标,即赋值cij=0;(5.2)生成空间向量Ci:依次将微博分词数据库S2中的第i条微博的Pi个词语,与步骤4分词统计数据库S3中的M个词语进行匹配,当发现Pi个词语中,有q个词语与分词统计数据库S3中的第j个词语相同,则cij=q,其中,q为大于0的整数。有益效果:与现有技术相比,本专利技术具有以下优点:(1)本专利技术可以很好的获取任何类型的交通数据,通过计算机的自动微博采集、中文分词、文本分类,实现从微博数据到交通数据的转化。(2)本专利技术的操作使用并不需要很强的计算机编程背景知识,通过简单的培训学习,交通工程人员可以很好的掌握该方法,即本专利技术易于实现,技术层面上便于移植,且可操作性强。(3)在本专利技术中的交通数据获取上,并不需要很大的人力、与技术投入,资金投入非常少,对于交通数据的获取具有很强的时效性,非常适合经济水平较高且人口较多的城市或地区。(4)基于微博使用用户的庞大基数,本专利技术通过微博来获取相关的交通数据,具有实时性、广泛性和灵活性。附图说明图1为本专利技术的总体流程图;图2为本专利技术的实施例中生成的词云示本文档来自技高网
...
一种基于微博的交通数据获取方法

【技术保护点】
一种基于微博的交通数据获取方法,其特征在于具体包含以下步骤:步骤1、根据需要采集微博数据:根据需要获取的交通数据类型,选取待采集的微博关键词,然后通过微博的官方开放平台及其API接口,采集含有上述微博关键词的所有微博;步骤2、预处理所采集的微博:删除步骤1中采集到的微博中的冗余微博,设剩余微博的总数量为N,然后将这N条微博按照微博发出的时间先后顺序存入微博数据库S1中;步骤3、选取部分微博进行人工分类:选取微博数据库S1中的部分微博进行人工分类;步骤4、将微博进行分词及删除停用词处理,并生成微博数据的词云;步骤5、生成每条微博的空间向量;步骤6、训练支持向量机;步骤7、微博数据的自动分类。

【技术特征摘要】
1.一种基于微博的交通数据获取方法,其特征在于具体包含以下步骤:步骤1、根据需要采集微博数据:根据需要获取的交通数据类型,选取待采集的微博关键词,然后通过微博的官方开放平台及其API接口,采集含有上述微博关键词的所有微博;步骤2、预处理所采集的微博:删除步骤1中采集到的微博中的冗余微博,设剩余微博的总数量为N,然后将这N条微博按照微博发出的时间先后顺序存入微博数据库S1中;步骤3、选取部分微博进行人工分类:选取微博数据库S1中的部分微博进行人工分类;步骤4、将微博进行分词及删除停用词处理,并生成微博数据的词云,具体方法为:(4.1)采用ICTCLAS法,依次将微博数据库S1中的每条微博进行分词处理;(4.2)删除步骤(4.1)分词结果中的停用词,并记录第i条微博在分词并删除停用词后所得到的词语数量Pi;(4.3)将该Pi个词语按照分词的拼音字母顺序存入微博分词数据库S2中;(4.4)统计微博分词数据库S2中出现的所有不同的词语的总数M,将每个词语按照其在微博分词数据库S2中出现的次数从高到低排序并存入分词统计数据库S3中,并统计分词统计数据库S3中第j条词语j在S2中出现的总次数kj;(4.5)选择出现次数前100的词语绘制词云;其中,i为微博数据库S1中各条微博的序号,i为整数且1≤i≤N,Pi为第i条微博分词并删除停用词后的词语数量,Pi为大于0的整数,M为微博分词数据库S2中出现的所有不同的词语的总数,M为大于0的整数;j为将词语按照其在所有微博中出现的次数从高到低排序后的词语的序号,j为整数且1≤j≤M;kj为分词结果中词语j在所有微博中出现的总次数,kj为大于0的整数;步骤5、生成每条微博的空间向量;步骤6、训练支持向量机;步骤7、微博数据的自动分类。2.根据权利要求1所述的基于微博的交通数据获取方法,其特征在于:所述步骤5的具体方法为:依次将步骤2中微博数据库S1中的第i条微博转化为空间向量Ci,Ci的空间坐标为(ci1,ci2,ci3,…cij,…ciM),其中,cij为第i条微博转化的空间向量中第j个坐标值,cij为大于等于0的整数。3.根据权利要求1所述的基于微博的交通数据获取方法,其特征在于:所示步骤6的具体方法为:将步骤3中在微博数据库S1中的进行人工分类的部分微博的分...

【专利技术属性】
技术研发人员:王炜华雪东张方伟
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1