【技术实现步骤摘要】
基于层次化主题提取的交通数据可视分析方法和系统
[0001]本专利技术涉及一种交通数据分析与可视化的方法和系统,本专利技术基于层次化主题建模提取多粒度的交通主题,并设计渐进式的可视分析流程,支持用户驱动的主题粒度细化与主题语义分析。
技术介绍
[0002]随着定位技术的发展,城市时空数据正以前所未有的速度产生,从海量的城市数据中挖掘有价值的知识是构建智慧城市的关键。通过建立轨迹数据与自然语言处理领域的概念类比,可以将主题建模方法应用于交通数据挖掘,提取出反映人群移动模式的交通主题,在理解城市动态、商业选址、功能区挖掘等方面取得有效应用。
[0003]现有研究大多基于扁平的主题建模分析交通数据,这类方法往往在数据挖掘阶段设定主题数,以得到互不重叠的聚类。在后续的可视分析中,用户也只能对固定粒度的主题展开分析。
[0004]不同粒度的交通主题能反映不同层级的移动模式。粗粒度的交通主题语义更为概况,能反映宏观的城市移动模式;而细粒度的主题对轨迹文档的分类更精确;随着主题粒度的细化,原本被笼统归为一类的轨迹文档可能分离出语义独立的新主题,有助于揭示特定人群的移动模式,帮助用户做出更准确的决策。在数据挖掘阶段就预定主题粒度的分析方法无疑限制了知识发现的更多可能。
[0005]因此需要设计一种更灵活通用的可视分析方法,允许用户自适应的确定主题粒度。同时,还应设计人性化的交互与视图,提升用户的分析效率,帮助用户充分理解主题语义。
技术实现思路
[0006]为了克服现有交通主题可视分析方法的不 ...
【技术保护点】
【技术特征摘要】
1.基于层次化主题提取的交通数据可视分析方法,包括以下步骤:1.对数据进行层次化主题建模与可视化:首先对原始数据进行轨迹文本化,然后通过TF
‑
IDF算法进行轨迹文档的向量化以得到可输入H
‑
NMF算法的特征矩阵,再通过H
‑
NMF算法进行建模,得到一颗多层次的主题树,最后设计与其他视图联动的主题分割视图,支持用户自适应的划分主题;具体包括:1.1.对轨迹数据进行预处理;使用一天出租车轨迹数据,该数据由车载GPS采样记录;每个记录点包含当前出租车ID、时间戳、经纬度坐标、载客状态、速度等信息;为便于使用文本分析方法处理轨迹数据,在空间上将研究的城市区域划分为100
×
100的均匀网格,并每个网格赋予唯一的网格索引Gri,Gri∈[1,10000];在时间上将一天按小时均匀划分,并为每个时间间隔赋予唯一的时间索引Ti,Ti∈[0,23];1.2.将轨迹数据类比为语料库;对于每辆车一天的行驶轨迹,根据上述时空划分,将每个记录点映射为对应的时空单元,每个时空单元表示为Gr
i
_T
i
;则每辆车一天的行驶轨迹转换为对应的时空单元序列{Tri|Gr1_T1,Gr2_T1,
…
};然后建立轨迹数据与文本数据的概念类比,将每辆车一天的轨迹看作一篇文档,轨迹包含的所有时空单元看作组成文档的词语,这样所有的出租车轨迹即组成了待分析的轨迹语料库;1.3.对轨迹语料库进行向量化;为便于建模及取得良好的主题建模结果,需要将轨迹文档转换为特征向量;首先从轨迹语料库中提取所有的时空单元作为词典,并统计每个词在当前文档的出现次数建立词频数矩阵,然后使用TF
‑
IDF(Term Frequency
‑
Inverse Document Frequency)算法进行向量化,得到可用于H
‑
NMF建模的特征矩阵;具体的,TF
‑
IDF中的词频TF(Term Frequency)表示某个词语在该文档中出现的次数,TF计算方法如公式(1):其中n
ij
表示单词i在文档j中出现的次数,分母则表示文档j中所有的单词数;由于语料库一些通用的词虽然词频值tf较高,但并不具有代表性,反而是一些词频少的特殊词更能表达文档特征,因此同时考虑逆向文档频率IDF(Inverse Document Frequency)能更好的表示文档特征;IDF的思想是,对于某个单词,包含该词的文档越少则该词的idf值越大,表明该词具有很好的文档区分能力,IDF计算方法如公式(2):其中|D|为语料库的文档总数,分母表示包含单词i的文档数;完整的TF
‑
IDF计算方法如公式(3)所示:tfidf
ij
=tf
ij
*idf
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)1.4.使用向量化结果进行H
‑
NMF建模;H
‑
NMF算法是一种层次化的非负矩阵分解算法,与扁平的主题建模不同,H
‑
NMF不需设定主题的个数,只需要设定叶节点数的上限,就能自顶向下的划分语料库,产生一颗层次化的主题树;H
‑
NMF算法中设计了一个衡量当前节点能否产生两个分离良好主题的指标,即mNDCG分数,通过mNDCG分数可确定文档划分的顺序;H
‑
NMF从包含所有轨迹文档的根节点开始,每次挑选一个mNDCG分数最高的叶节点,迭代的执行rank2
‑
nmf算法,即秩为2的非负矩阵分解,每轮迭代都会产生两个新的子主题;具体的,
对于一个m个词n个文本组成的特征矩阵X
m
×
n
,rank2
‑
nmf的目标是通过两个非负矩阵W和H的积近似X,其目标函数如公式(4)所示:其中||
·
||
F
为Frobenius范数;在本发明中,对于特征矩阵X
m
×
n
,元素X
ij
即第i个词在第j个文本上的tf
‑
idf权重;W
m
×2是主题
‑
词矩阵,元素W
ik
表示第i个词与第k个主题的相关度;H2×
n
是文档
‑
主题矩阵,H
kj
表示第j个文本与第k个主题的相关度;每次迭代后,H
‑
NMF利用文档
‑
主题矩阵H进行文档划分;1.5.绘制主题分割视图;通过桑基图设计可交互的主题分割视图,视图的节点对应主...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。