一种地铁乘客需求动态获取方法及其获取系统技术方案

技术编号：22330180 阅读：52 留言：0更新日期：2019-10-19 12:17

本发明专利技术公开了一种地铁乘客需求动态获取方法及其获取系统，包括以下步骤：步骤1：构建需求词库，从社交网络平台获取用户发文数据；步骤2：对获取的数据进行预处理；步骤3：采用支撑向量机分类器过滤与地铁乘客需求不相关的文本；步骤4：进行相关性聚类；步骤5：对每一聚类簇，给定标签作为需求项，并计算需求项的重要度；步骤6：将需求项首先判断其是否已存在于需求词库，若是则退出，若否则判断其重要度和相对传播持久度是否同时满足预设阈值，若满足则发现了新需求项，并将其加入到需求词库，若不满足则退出；本发明专利技术可处理大量的用户发文，提高了用户需求获取效率，主观性低；能实时从海量用户发文中，获取需求偏好和潜在的用户需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种地铁乘客需求动态获取方法及其获取系统
本专利技术公开了一种地铁乘客需求动态获取方法，具体涉及一种地铁乘客需求动态获取方法及其获取系统。
技术介绍
近10余年来，铁路的运输能力逐步增强，其旅客周转量亦逐步升高。城铁、高铁客运量和周转量的增加，将进一步增大轨道交通线路网密度，增加地铁车辆订单数量。这给地铁车辆制造企业提供了机遇和挑战。轨道车辆制造企业的客户包括运营企业和乘客，然而目前轨道车辆制造企业主要关注运营企业的需求而缺乏对乘客需求的分析，从而影响终端客户对轨道车辆制造企业产品的满意程度，不利于提高企业的市场竞争力。乘客需求包括乘客需求项及其重要度，都随时间动态变化，而现有需求获取方法，如调查问卷等。在获取动态的乘客需求时不仅需要耗费大量人力而且存在较大的主观性，这都制约了轨道车辆制造企业对乘客需求进行分析。
技术实现思路
本专利技术提供一种数据获取效率高、主观性低的地铁乘客需求动态获取方法及其获取系统。本专利技术采用的技术方案是：一种地铁乘客需求动态获取方法，包括以下步骤：步骤1：构建需求词库，根据需求词库从社交网络平台获取用户发文数据；步骤2：对步骤1获取的数据进行预处理；步骤3：采用支撑向量机分类器过滤与地铁乘客需求不相关的文本；步骤4：将步骤3过滤后的文本通过轮廓系数修正的K均值聚类方法进行相关性聚类；步骤5：对步骤4中的每一聚类簇，给定标签作为需求项，并计算需求项的重要度；步骤6：将步骤5中得到的需求项首先判断其是否已存在于需求词库，若是则退出，若否则判断其重要度和相对传播持久度是否同时满足预设阈值，若满足则发现了新需求项，并将其加入到需求词库，...

【技术保护点】
1.一种地铁乘客需求动态获取方法，其特征在于，包括以下步骤：步骤1：构建需求词库，根据需求词库从社交网络平台获取用户发文数据；步骤2：对步骤1获取的数据进行预处理；步骤3：采用支撑向量机分类器过滤与地铁乘客需求不相关的文本；步骤4：将步骤3过滤后的文本通过轮廓系数修正的K均值聚类方法进行相关性聚类；步骤5：对步骤4中的每一聚类簇，给定标签作为需求项，并计算需求项的重要度；步骤6：将步骤5中得到的需求项首先判断其是否已存在于需求词库，若是则退出，若否则判断其重要度和相对传播持久度是否同时满足预设阈值，若满足则发现了新需求项，并将其加入到需求词库，若不满足则退出。

【技术特征摘要】
1.一种地铁乘客需求动态获取方法，其特征在于，包括以下步骤：步骤1：构建需求词库，根据需求词库从社交网络平台获取用户发文数据；步骤2：对步骤1获取的数据进行预处理；步骤3：采用支撑向量机分类器过滤与地铁乘客需求不相关的文本；步骤4：将步骤3过滤后的文本通过轮廓系数修正的K均值聚类方法进行相关性聚类；步骤5：对步骤4中的每一聚类簇，给定标签作为需求项，并计算需求项的重要度；步骤6：将步骤5中得到的需求项首先判断其是否已存在于需求词库，若是则退出，若否则判断其重要度和相对传播持久度是否同时满足预设阈值，若满足则发现了新需求项，并将其加入到需求词库，若不满足则退出。2.根据权利要求1所述的一种地铁乘客需求动态获取方法，其特征在于，所述步骤1获取数据过程如下：将需求词库中的词语作为关键词在社交网络平台中检索，得到用户发文；通过网络爬虫获取文本数据。3.根据权利要求1所述的一种地铁乘客需求动态获取方法，其特征在于，步骤3具体过程如下：S11：对步骤2预处理后的文本随机抽样，生成训练样本和测试样本；S12：根据训练样本确定相关文本和不相关文本并分别确定其特征词，计算训练样本信息熵和每个词的信息增益值，将增益值大于设定阈值的词作为特征词；训练样本信息熵IG(X)计算过程如下：式中：X为训练样本集，N1和N2分别表示相关文本数量和不相关文本数量；每个词的信息增益值IG(word)计算过程如下：式中：word为训练样本集中的词语，A、B分别为每个词在相关文本和不相关文本中出现的频率，C、D分别为每个词在相关文本和不相关文本不出现的频率；S13：计算各文本中特征词的特征值，将文本表示为特征值向量；S14：根据训练样本构建支撑向量机分类器，用测试样本完善分类器；S15：采用步骤S14得到的支撑向量分类器对数据进行分类，分为需求相关文本和不相关文本，去除不相关文本。4.根据权利要求3所述的一种地铁乘客需求动态获取方法，其特征在于，所述步骤4中轮廓系数修正的K均值聚类方法为首先通过K均值聚类，然后通过轮廓系数确定最优聚类簇数k；K均值聚类过程如下：确定某聚类簇中各点到聚类中心的距离平方和dist(Sk)：式中：Sk为各簇的文本集合，xi为Sk簇中文本的特征值向量，ns为Sk簇中文本的数量，uk为Sk簇的聚类中心，i为簇中文本标号；其中uk如下：聚类域中所有样本到聚类中心的距离的平方和dist(S)为：式中：k为聚类的簇数，S为总的文本集合数，j为文本集合中各聚类簇标号；轮廓系数L(xi)如下：式中：a(xi)为文本xi与其同一簇内...

【专利技术属性】
技术研发人员：黎荣，黎伟洋，王建，丁国富，张义军，韩鑫，郑宇飞，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人