基于层次化主题提取的交通数据可视分析方法和系统技术方案

技术编号:32355246 阅读:61 留言:0更新日期:2022-02-20 03:14
基于层次化主题提取的交通数据可视分析方法,包括如下步骤:1)对数据进行层次化主题建模与可视化;2)提取可视化主题的基本语义;3)提取主题流模式并可视化;4)提取区域属性数据并可视化。本发明专利技术还包括基于层次化主题提取的交通数据可视分析系统。本发明专利技术允许用户自适应的确定主题粒度,能够满足不同用户、不同阶段的分析需求;支持用户由粗到细认识数据,更符合人的认知规律;层级的数据结构能够引导用户快速锁定感兴趣的局部数据,提升了用户的分析效率;视图设计丰富,能帮助用户充分理解主题;可扩展性强。可扩展性强。可扩展性强。

【技术实现步骤摘要】
基于层次化主题提取的交通数据可视分析方法和系统


[0001]本专利技术涉及一种交通数据分析与可视化的方法和系统,本专利技术基于层次化主题建模提取多粒度的交通主题,并设计渐进式的可视分析流程,支持用户驱动的主题粒度细化与主题语义分析。

技术介绍

[0002]随着定位技术的发展,城市时空数据正以前所未有的速度产生,从海量的城市数据中挖掘有价值的知识是构建智慧城市的关键。通过建立轨迹数据与自然语言处理领域的概念类比,可以将主题建模方法应用于交通数据挖掘,提取出反映人群移动模式的交通主题,在理解城市动态、商业选址、功能区挖掘等方面取得有效应用。
[0003]现有研究大多基于扁平的主题建模分析交通数据,这类方法往往在数据挖掘阶段设定主题数,以得到互不重叠的聚类。在后续的可视分析中,用户也只能对固定粒度的主题展开分析。
[0004]不同粒度的交通主题能反映不同层级的移动模式。粗粒度的交通主题语义更为概况,能反映宏观的城市移动模式;而细粒度的主题对轨迹文档的分类更精确;随着主题粒度的细化,原本被笼统归为一类的轨迹文档可能分离出语义独立的新主题,有助于揭示特定人群的移动模式,帮助用户做出更准确的决策。在数据挖掘阶段就预定主题粒度的分析方法无疑限制了知识发现的更多可能。
[0005]因此需要设计一种更灵活通用的可视分析方法,允许用户自适应的确定主题粒度。同时,还应设计人性化的交互与视图,提升用户的分析效率,帮助用户充分理解主题语义。

技术实现思路

[0006]为了克服现有交通主题可视分析方法的不足,本专利技术提出了一种基于层次化主题建模的交通数据分析与可视化方法和系统。
[0007]本专利技术首先建立轨迹数据与自然语言处理领域的概念类比,得到可用于主题建模的轨迹语料库。然后使用H

NMF(Hierarchical Non

negative Matrix Factorization)算法进行建模,得到一颗层次化的主题二叉树,接着本专利技术并未在可视系统中一次提供主题树上所有的交通主题,而是通过可交互的主题分割视图设计了渐进式的可视分析流程,支持用户根据主题间的层级关系和主题基本语义按需选择感兴趣的主题进行细节分析或粒度细化。
[0008]此外,为了支持用户更全面的理解交通主题,除了通过时间、空间分布视图展示主题基本语义外,本专利技术还设计了其他视图以支持更细节的分析。如本专利技术提取每个主题下轨迹集的乘客旅行记录,并构建OD(Origin

Destination)网络,通过社区检测方法提取交通流模式,并设计交通流视图予以展示;同时,本专利技术提取关键区域的POI配置、速度分布、上下车人数等数据,并设计了区域属性视图,支持用户在基于交通流视图的分析后,查看感
兴趣关键区域的多维属性信息。
[0009]基于层次化主题提取的交通数据可视分析方法,包括以下步骤:
[0010]1.对数据进行层次化主题建模与可视化:首先对原始数据进行轨迹文本化,然后通过TF

IDF算法进行轨迹文档的向量化以得到可输入H

NMF算法的特征矩阵,再通过H

NMF算法进行建模,得到一颗多层次的主题树,最后设计与其他视图联动的主题分割视图,支持用户自适应的划分主题。具体包括:
[0011]1.1.对轨迹数据进行预处理。本专利技术使用一天出租车轨迹数据,该数据由车载GPS采样记录。每个记录点包含当前出租车ID、时间戳、经纬度坐标、载客状态、速度等信息。为便于使用文本分析方法处理轨迹数据,本专利技术在空间上将研究的城市区域划分为100
×
100的均匀网格,并每个网格赋予唯一的网格索引Gri,Gri∈[1,10000];在时间上将一天按小时均匀划分,并为每个时间间隔赋予唯一的时间索引Ti,Ti∈[0,23]。
[0012]1.2.将轨迹数据类比为语料库。对于每辆车一天的行驶轨迹,本专利技术根据上述时空划分,将每个记录点映射为对应的时空单元,每个时空单元表示为Gr
i
_T
i
。则每辆车一天的行驶轨迹转换为对应的时空单元序列{Tri|Gr1_T1,Gr2_T1,

}。然后本专利技术建立轨迹数据与文本数据的概念类比,将每辆车一天的轨迹看作一篇文档,轨迹包含的所有时空单元看作组成文档的词语,这样所有的出租车轨迹即组成了待分析的轨迹语料库。
[0013]1.3.对轨迹语料库进行向量化。为便于建模及取得良好的主题建模结果,需要将轨迹文档转换为特征向量。本专利技术首先从轨迹语料库中提取所有的时空单元作为词典,并统计每个词在当前文档的出现次数建立词频数矩阵,然后使用TF

IDF(Term Frequency

Inverse Document Frequency)算法进行向量化,得到可用于H

NMF建模的特征矩阵。具体的,TF

IDF中的词频TF(Term Frequency)表示某个词语在该文档中出现的次数,TF计算方法如公式(1):
[0014][0015]其中n
ij
表示单词i在文档j中出现的次数,分母则表示文档j中所有的单词数。由于语料库一些通用的词虽然词频值tf较高,但并不具有代表性,反而是一些词频少的特殊词更能表达文档特征,因此同时考虑逆向文档频率IDF(Inverse Document Frequency)能更好的表示文档特征。IDF的思想是,对于某个单词,包含该词的文档越少则该词的idf值越大,表明该词具有很好的文档区分能力,IDF计算方法如公式(2):
[0016][0017]其中|D|为语料库的文档总数,分母表示包含单词i的文档数。
[0018]完整的TF

IDF计算方法如公式(3)所示:
[0019]tfidf
ij
=tf
ij
*idf
i
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0020]1.4.使用向量化结果进行H

NMF建模。H

NMF算法是一种层次化的非负矩阵分解算法,与扁平的主题建模不同,H

NMF不需设定主题的个数,只需要设定叶节点数的上限,就能自顶向下的划分语料库,产生一颗层次化的主题树。H

NMF算法中设计了一个衡量当前节点能否产生两个分离良好主题的指标,即mNDCG分数,通过mNDCG分数可确定文档划分的顺序。H

NMF从包含所有轨迹文档的根节点开始,每次挑选一个mNDCG分数最高的叶节点,迭代的
执行rank2

nmf算法,即秩为2的非负矩阵分解,每轮迭代都会产生两个新的子主题。具体的,对于一个m个词n个文本组成的特征矩阵X
m
×
n
,rank2

nmf的目标是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于层次化主题提取的交通数据可视分析方法,包括以下步骤:1.对数据进行层次化主题建模与可视化:首先对原始数据进行轨迹文本化,然后通过TF

IDF算法进行轨迹文档的向量化以得到可输入H

NMF算法的特征矩阵,再通过H

NMF算法进行建模,得到一颗多层次的主题树,最后设计与其他视图联动的主题分割视图,支持用户自适应的划分主题;具体包括:1.1.对轨迹数据进行预处理;使用一天出租车轨迹数据,该数据由车载GPS采样记录;每个记录点包含当前出租车ID、时间戳、经纬度坐标、载客状态、速度等信息;为便于使用文本分析方法处理轨迹数据,在空间上将研究的城市区域划分为100
×
100的均匀网格,并每个网格赋予唯一的网格索引Gri,Gri∈[1,10000];在时间上将一天按小时均匀划分,并为每个时间间隔赋予唯一的时间索引Ti,Ti∈[0,23];1.2.将轨迹数据类比为语料库;对于每辆车一天的行驶轨迹,根据上述时空划分,将每个记录点映射为对应的时空单元,每个时空单元表示为Gr
i
_T
i
;则每辆车一天的行驶轨迹转换为对应的时空单元序列{Tri|Gr1_T1,Gr2_T1,

};然后建立轨迹数据与文本数据的概念类比,将每辆车一天的轨迹看作一篇文档,轨迹包含的所有时空单元看作组成文档的词语,这样所有的出租车轨迹即组成了待分析的轨迹语料库;1.3.对轨迹语料库进行向量化;为便于建模及取得良好的主题建模结果,需要将轨迹文档转换为特征向量;首先从轨迹语料库中提取所有的时空单元作为词典,并统计每个词在当前文档的出现次数建立词频数矩阵,然后使用TF

IDF(Term Frequency

Inverse Document Frequency)算法进行向量化,得到可用于H

NMF建模的特征矩阵;具体的,TF

IDF中的词频TF(Term Frequency)表示某个词语在该文档中出现的次数,TF计算方法如公式(1):其中n
ij
表示单词i在文档j中出现的次数,分母则表示文档j中所有的单词数;由于语料库一些通用的词虽然词频值tf较高,但并不具有代表性,反而是一些词频少的特殊词更能表达文档特征,因此同时考虑逆向文档频率IDF(Inverse Document Frequency)能更好的表示文档特征;IDF的思想是,对于某个单词,包含该词的文档越少则该词的idf值越大,表明该词具有很好的文档区分能力,IDF计算方法如公式(2):其中|D|为语料库的文档总数,分母表示包含单词i的文档数;完整的TF

IDF计算方法如公式(3)所示:tfidf
ij
=tf
ij
*idf
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)1.4.使用向量化结果进行H

NMF建模;H

NMF算法是一种层次化的非负矩阵分解算法,与扁平的主题建模不同,H

NMF不需设定主题的个数,只需要设定叶节点数的上限,就能自顶向下的划分语料库,产生一颗层次化的主题树;H

NMF算法中设计了一个衡量当前节点能否产生两个分离良好主题的指标,即mNDCG分数,通过mNDCG分数可确定文档划分的顺序;H

NMF从包含所有轨迹文档的根节点开始,每次挑选一个mNDCG分数最高的叶节点,迭代的执行rank2

nmf算法,即秩为2的非负矩阵分解,每轮迭代都会产生两个新的子主题;具体的,
对于一个m个词n个文本组成的特征矩阵X
m
×
n
,rank2

nmf的目标是通过两个非负矩阵W和H的积近似X,其目标函数如公式(4)所示:其中||
·
||
F
为Frobenius范数;在本发明中,对于特征矩阵X
m
×
n
,元素X
ij
即第i个词在第j个文本上的tf

idf权重;W
m
×2是主题

词矩阵,元素W
ik
表示第i个词与第k个主题的相关度;H2×
n
是文档

主题矩阵,H
kj
表示第j个文本与第k个主题的相关度;每次迭代后,H

NMF利用文档

主题矩阵H进行文档划分;1.5.绘制主题分割视图;通过桑基图设计可交互的主题分割视图,视图的节点对应主...

【专利技术属性】
技术研发人员:汤颖陶瑜
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1