一种基于微博的交通数据获取方法技术

技术编号：10656741 阅读：183 留言：0更新日期：2014-11-19 17:30

本发明专利技术公开一种基于微博的交通数据获取方法，通过采集公开的交通相关微博，通过对每条微博进行分词处理，获取每条微博的词语组成；在分词结果的基础上，生成每条微博的空间向量，通过对每条微博的空间向量进行支持向量机训练及分类分析，最终实现对微博的计算机自动分类判别，并提取出有价值的信息。该发明专利技术方法从微博中纷繁大量的、无序的数据中，自动、快速、并行的获取交通相关数据，同时将数据中的特征可视化的表现出来，并准确的对数据进行筛选分类。本发明专利技术方法在很低的投入下便能获取大量的、分类的交通相关数据，具有较大的实用意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于微博的交通数据获取方法
本专利技术涉及一种数据采集及处理方法，具体涉及一种基于微博的交通数据获取方法。
技术介绍
随着我国社会经济的迅猛发展，各大城市均产生了一系列以交通拥堵、交通环境污染及交通事故为代表的问题，其根源是交通供给与需求间的失衡。相较于数学、物理等纯粹的自然科学对公式与实验的依赖，交通科学则更多的是一项系统工程科学。因而，对于此类问题的解决，并不能完全寄希望于理论公式的迭代与模拟仿真实验。在探寻交通问题解决方法、进行交通设计、交通设施新建、改扩建等工程时，必须基于对现实交通需求的合理有效把握，这其中就需要对交通的参与者进行科学、有效的调查。在我国，由于各个城市的人口较多，因而对于交通系统的调查将会耗费大量的人力、财力与时间。以城市的公交线网优化为例，假若城市的常住人口为500万人，采用2％的抽样比例调查城市居民的出行分布与出行需求，并根据此优化公交线网。这其中涉及到的城市居民就有10万人，并且还需要很多的调查资金投入。并且，目前我国的交通调查还停留在较为陈旧的人工调查阶段，没有很好的利用一些信息化技术。如何在较少的资金与人力投入的前提下，方便、快速、准确的获取质量较高的交通数据，是摆在城市管理者与交通学者面前的一道难题，亟待提出新的解决方案。在我国现有的交通数据的调查与获取过程中，人工的调查方式存在的包含耗时、耗人力、耗资金等在内的缺陷，以及该方式获取的交通数据存在的时效性较低、覆盖面较窄等的问题。随着我国网络的迅速普及，越来越多的网民在使用微博这一社交网络，并且具有移动定位功能的手机微博(手机微博用户可以实时发布有关交通状况的微博内...
一种基于微博的交通数据获取方法

【技术保护点】
一种基于微博的交通数据获取方法，其特征在于具体包含以下步骤：步骤1、根据需要采集微博数据：根据需要获取的交通数据类型，选取待采集的微博关键词，然后通过微博的官方开放平台及其API接口，采集含有上述微博关键词的所有微博；步骤2、预处理所采集的微博：删除步骤1中采集到的微博中的冗余微博，设剩余微博的总数量为N，然后将这N条微博按照微博发出的时间先后顺序存入微博数据库S1中；步骤3、选取部分微博进行人工分类：选取微博数据库S1中的部分微博进行人工分类；步骤4、将微博进行分词及删除停用词处理，并生成微博数据的词云；步骤5、生成每条微博的空间向量；步骤6、训练支持向量机；步骤7、微博数据的自动分类。

【技术特征摘要】
1.一种基于微博的交通数据获取方法，其特征在于具体包含以下步骤：步骤1、根据需要采集微博数据：根据需要获取的交通数据类型，选取待采集的微博关键词，然后通过微博的官方开放平台及其API接口，采集含有上述微博关键词的所有微博；步骤2、预处理所采集的微博：删除步骤1中采集到的微博中的冗余微博，设剩余微博的总数量为N，然后将这N条微博按照微博发出的时间先后顺序存入微博数据库S1中；步骤3、选取部分微博进行人工分类：选取微博数据库S1中的部分微博进行人工分类；步骤4、将微博进行分词及删除停用词处理，并生成微博数据的词云，具体方法为：(4.1)采用ICTCLAS法，依次将微博数据库S1中的每条微博进行分词处理；(4.2)删除步骤(4.1)分词结果中的停用词，并记录第i条微博在分词并删除停用词后所得到的词语数量Pi；(4.3)将该Pi个词语按照分词的拼音字母顺序存入微博分词数据库S2中；(4.4)统计微博分词数据库S2中出现的所有不同的词语的总数M，将每个词语按照其在微博分词数据库S2中出现的次数从高到低排序并存入分词统计数据库S3中，并统计分词统计数据库S3中第j条词语j在S2中出现的总次数kj；(4.5)选择出现次数前100的词语绘制词云；其中，i为微博数据库S1中各条微博的序号，i为整数且1≤i≤N，Pi为第i条微博分词并删除停用词后的词语数量，Pi为大于0的整数，M为微博分词数据库S2中出现的所有不同的词语的总数，M为大于0的整数；j为将词语按照其在所有微博中出现的次数从高到低排序后的词语的序号，j为整数且1≤j≤M；kj为分词结果中词语j在所有微博中出现的总次数，kj为大于0的整数；步骤5、生成每条微博的空间向量；步骤6、训练支持向量机；步骤7、微博数据的自动分类。2.根据权利要求1所述的基于微博的交通数据获取方法，其特征在于：所述步骤5的具体方法为：依次将步骤2中微博数据库S1中的第i条微博转化为空间向量Ci，Ci的空间坐标为(ci1,ci2,ci3,…cij,…ciM)，其中，cij为第i条微博转化的空间向量中第j个坐标值，cij为大于等于0的整数。3.根据权利要求1所述的基于微博的交通数据获取方法，其特征在于：所示步骤6的具体方法为：将步骤3中在微博数据库S1中的进行人工分类的部分微博的分...

【专利技术属性】
技术研发人员：王炜，华雪东，张方伟，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人