一种基于T-LDA主题模型的驾驶行为模式识方法技术

技术编号:19904448 阅读:26 留言:0更新日期:2018-12-26 03:13
本发明专利技术公开了一种基于T‑LDA主题模型的驾驶行为模式识方法,该方法包括以下步骤:S1、驾驶行为词典建立与驾驶行为直方图特征提取,根据驾驶行为数据的聚类结果建立驾驶行为词典;构建驾驶数据‑驾驶行为单词的共现矩阵,即驾驶行为直方图特征;S2、利用驾驶行为直方图特征对改进后的T‑LDA模型进行训练,进而构建驾驶数据、驾驶模式、驾驶行为单词三者之间的关系,并且引入时间信息作为驾驶行为单词的标签;利用带有时间标签的驾驶行为直方图特征对模型进行训练,并使用吉布斯采样方法求解模型参数,输出驾驶行为识别结果。本发明专利技术能有效用于驾驶行为模式识别。

【技术实现步骤摘要】
一种基于T-LDA主题模型的驾驶行为模式识方法
本专利技术涉及驾驶行为模式识别
,尤其涉及一种基于T-LDA主题模型的驾驶行为模式识方法。
技术介绍
现今驾驶过程中驾驶人不规范行为带来的交通安全问题日益突出。交通事故的产生原因实例分析表明驾驶人急加速、急减速、急转弯等不良驾驶行为是产生交通事故的主要因素。为了提高驾驶安全性,及时获取驾驶数据,从中提取驾驶行为特征,进行识别和行为改善已成为研究热点。智能移动终端的快速普及,使得车辆行驶数据获取更为方便,便于分析驾驶员的驾驶行为和驾驶模式。有学者利用智能手机内置的加速度传感器获取车辆在横轴和纵轴上的加速度数据,对加减速以及转弯等驾驶行为进行识别,取得了不错的效果。也有学者利用加速度传感器采集车辆加速度信息,并将其分成低、中、高三种级别,建立加速度级别信息与驾驶模式类别的关系,最终将驾驶模式分为四类:普通水平以下的谨慎型驾驶模式、驾驶行为无威胁性的普通驾驶模式、具有一定威胁性的激进驾驶模式和具有极大威胁性的十分激进驾驶模式。目前主流的研究都是直接在驾驶数据的底层特征上进行,也就是通过加速或转弯等行为的持续时间、剧烈程度进行判断,再对驾驶模式进行识别。驾驶模式的深入研究表明,只在驾驶数据中单一驾驶行为上识别驾驶模式,而不考虑驾驶数据中不同驾驶行为序列的特定组合,会导致对于不同道路情况以及不同时段的适用性不佳。研究人员的研究重点转向基于驾驶行为序列的理解来判断驾驶模式。有学者利用统计模型对驾驶人驾驶过程中出现的一系列加速、减速等驾驶行为组合进行驾驶模式研究,从中挖掘出了不同驾驶人间驾驶模式的差异性。因此研究人员把目光转向在文本分析领域早已运用成熟的统计模型算法—主题模型算法。主题模型通过抽取隐藏在文档中的主题信息对文档进行分类管理,将隐含变量引申为主题,作为文本中一组相关词的抽象,通过对训练样本的学习,可以构建生成不同文本的模型参数化表。借鉴主题模型在文本分析与图像场景识别应用中的思路,可将驾驶数据看成文档,即驾驶数据由不同的驾驶模式(主题)构成,每个驾驶模式(主题)由一系列可代表此模式的单一驾驶行为(单词)构成。pLSA是最具代表性的主题模型之一,该模型通过分析“词语-文档”共现矩阵,计算文档中各单词统计概率分布,进而确定文档主题。但其训练参数会随着驾驶数据集合的增加而线性增加,导致计算更加复杂;而且只能对训练驾驶数据集生成模型,对于新的驾驶数据识别效果不佳。对于上述缺点,有学者在pLSA的基础上提出了隐含狄利克雷分布(LatentDirichletAllocation,LDA)模型,只需使用适量的参数来表示数据,可避免过拟合问题。本专利技术提取出各不同驾驶行为类的聚类中心,将其当做驾驶行为词典中的单词,统计驾驶数据中不同驾驶行为单词出现的次数,得到驾驶行为单词加权直方图特征。针对当前主流主题模型pLSA、LDA的不足,本专利技术在LDA模型的基础上提出了引入时间标签的改进LDA模型,即T-LDA模型来识别驾驶模式。实验结果表明改进的模型能有效地挖掘出驾驶数据中一系列连续驾驶行为的特性,提高驾驶模式识别的准确率。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于T-LDA主题模型的驾驶行为模式识方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种基于T-LDA主题模型的驾驶行为模式识方法,该方法包括以下步骤:S1、驾驶行为词典建立与驾驶行为直方图特征提取:输入驾驶行为数据,并对其进行聚类处理,根据驾驶行为数据的聚类结果建立驾驶行为词典;提取出各不同驾驶行为类的聚类中心,将其当做驾驶行为词典中的单词,统计驾驶数据中不同驾驶行为单词出现的次数,得到驾驶数据-驾驶行为单词的共现矩阵,即驾驶行为直方图特征;S2、利用驾驶行为直方图特征对改进后的T-LDA模型进行训练:T-LDA模型包括两个部分,其一为每段驾驶数据所含驾驶模式种类及其概率密度分布,其二为每个驾驶模式所含驾驶行为单词种类及其概率密度分布,进而构建驾驶数据、驾驶模式、驾驶行为单词三者之间的关系,并且引入时间信息作为驾驶行为单词的标签,使邻近的多个驾驶行为组合起来;利用带有时间标签的驾驶行为直方图特征对模型进行训练,并使用吉布斯采样方法求解模型参数,输出驾驶行为识别结果。进一步地,本专利技术的步骤S1的具体方法为:S11、驾驶行为词典的建立:对原始驾驶行为数据进行特征提取,并选择特征进行聚类;对于聚类得到的不同驾驶行为分类,取各类的聚类中心作为词袋模型中的单词,所有不同驾驶行为的集合就构成驾驶行为词典;对不同频率的单词赋予不同大小的权值参数,单词出现频率越高,相应权值参数越小;S12、驾驶行为直方图特征提取:依据待处理的驾驶行为数据的局部特征,采用TF-IDF方法将驾驶行为直方图特征向量映射为单词,在所构建驾驶行为词典中搜索与之对应的行为单词,计算单词出现频率直方图,以此表征驾驶行为序列。进一步地,本专利技术的步骤S12中的TF-IDF方法的具体过程为:(1)假设从待处理的驾驶行为数据d中提取到M个驾驶行为特征向量,分别是F={f1,f2,f3,...,fM},已生成的驾驶行为词典W={w1,w2,w3,...,wV},V是驾驶行为词典的大小;(2)将驾驶行为特征向量fi映射到驾驶行为词典中的驾驶行为单词wci,即找出其在词典中的位置ci:ci=argmin||fi-wj||2且ci∈{1,2,…,V}(3)对每一个驾驶行为特征向量fi映射的驾驶行为单词wci,采用高斯函数计算其权重其中,方差是单词wci的词频数,f是词频居中的词频数;(4)对于驾驶行为单词wci计算其权重其中,n是驾驶数据中驾驶行为单词的总数。进一步地,本专利技术的步骤S2的具体方法为:S21、基于时间标签的改进LDA主题模型设计:对LDA模型引入驾驶行为单词的时间信息作为观测变量,将其作为驾驶行为单词的标签,并对改进后的T-LDA模型求取参数,最后利用T-LDA模型进行驾驶模式识别;S22、使用吉布斯采样方法求解模型参数。进一步地,本专利技术的步骤S21中T-LDA模型的驾驶行为数据产生的方法为:(1)对于每一个驾驶模式,从以服从参数为β的狄利克雷分布中采样得到K个驾驶行为单词语义-驾驶模式的多项分布参数(2)对于每一个驾驶模式,从以服从参数为γ的狄利克雷分布中采样得到K个驾驶行为单词时间标签-驾驶模式的多项分布参数φz;(3)对于每一段驾驶数据,从以服从参数为α的狄利克雷分布中采样得到驾驶模式-驾驶数据的多项分布参数θj;(4)对于驾驶数据j中的每一个驾驶行为单词的生成过程如下:(a)从以θj为参数的多项分布中采样得到一个驾驶模式zji;(b)从以φzji为参数的多项分布中采样一个驾驶行为单词wji;(c)从以为参数的多项分布中采样一个驾驶行为单词时间tji。进一步地,本专利技术的步骤S22中使用吉布斯采样方法求解模型参数的方法为:(1)随机或以某个顺序从文档集合中抽取一个单词;(2)在其他所有单词和主题给定的条件下,计算选定的单词分配给一主题的条件概率p(zji|z-ji,w,t,α,β,γ),其中z-i={z1,z2,…zi-1,zi+1,…zK};(3)随机抽取一个主题zi来取代当前词的主题。(4)不断循环以上过本文档来自技高网
...

【技术保护点】
1.一种基于T‑LDA主题模型的驾驶行为模式识方法,其特征在于,该方法包括以下步骤:S1、驾驶行为词典建立与驾驶行为直方图特征提取:输入驾驶行为数据,并对其进行聚类处理,根据驾驶行为数据的聚类结果建立驾驶行为词典;提取出各不同驾驶行为类的聚类中心,将其当做驾驶行为词典中的单词,统计驾驶数据中不同驾驶行为单词出现的次数,得到驾驶数据‑驾驶行为单词的共现矩阵,即驾驶行为直方图特征;S2、利用驾驶行为直方图特征对改进后的T‑LDA模型进行训练:T‑LDA模型包括两个部分,其一为每段驾驶数据所含驾驶模式种类及其概率密度分布,其二为每个驾驶模式所含驾驶行为单词种类及其概率密度分布,进而构建驾驶数据、驾驶模式、驾驶行为单词三者之间的关系,并且引入时间信息作为驾驶行为单词的标签,使邻近的多个驾驶行为组合起来;利用带有时间标签的驾驶行为直方图特征对模型进行训练,并使用吉布斯采样方法求解模型参数,输出驾驶行为识别结果。

【技术特征摘要】
1.一种基于T-LDA主题模型的驾驶行为模式识方法,其特征在于,该方法包括以下步骤:S1、驾驶行为词典建立与驾驶行为直方图特征提取:输入驾驶行为数据,并对其进行聚类处理,根据驾驶行为数据的聚类结果建立驾驶行为词典;提取出各不同驾驶行为类的聚类中心,将其当做驾驶行为词典中的单词,统计驾驶数据中不同驾驶行为单词出现的次数,得到驾驶数据-驾驶行为单词的共现矩阵,即驾驶行为直方图特征;S2、利用驾驶行为直方图特征对改进后的T-LDA模型进行训练:T-LDA模型包括两个部分,其一为每段驾驶数据所含驾驶模式种类及其概率密度分布,其二为每个驾驶模式所含驾驶行为单词种类及其概率密度分布,进而构建驾驶数据、驾驶模式、驾驶行为单词三者之间的关系,并且引入时间信息作为驾驶行为单词的标签,使邻近的多个驾驶行为组合起来;利用带有时间标签的驾驶行为直方图特征对模型进行训练,并使用吉布斯采样方法求解模型参数,输出驾驶行为识别结果。2.根据权利要求1所述的基于T-LDA主题模型的驾驶行为模式识方法,其特征在于,步骤S1的具体方法为:S11、驾驶行为词典的建立:对原始驾驶行为数据进行特征提取,并选择特征进行聚类;对于聚类得到的不同驾驶行为分类,取各类的聚类中心作为词袋模型中的单词,所有不同驾驶行为的集合就构成驾驶行为词典;对不同频率的单词赋予不同大小的权值参数,单词出现频率越高,相应权值参数越小;S12、驾驶行为直方图特征提取:依据待处理的驾驶行为数据的局部特征,采用TF-IDF方法将驾驶行为直方图特征向量映射为单词,在所构建驾驶行为词典中搜索与之对应的行为单词,计算单词出现频率直方图,以此表征驾驶行为序列。3.根据权利要求2所述的基于T-LDA主题模型的驾驶行为模式识方法,其特征在于,步骤S12中的TF-IDF方法的具体过程为:(1)假设从待处理的驾驶行为数据d中提取到M个驾驶行为特征向量,分别是F={f1,f2,f3,...,fM},已生成的驾驶行为词典W={w1,w2,w3,...,wV},V是驾驶行为词典的大小;(2)将驾驶行为特征向量fi映射到驾驶行为词典中的驾驶行为单词wci,即找出其在词典中的位置ci:ci=argmin||fi-wj||2且ci∈{1,2,…,V}(3)对每一个驾驶行为特征向量fi映射的驾驶行为单词wci,采用高斯函数计算其权重其中,方差是单词wci的词频数,f是词频居中的词频数;(4)对于驾驶行为单词wci计算其权重其中,n是驾驶数据中驾驶行为单词的总数。4.根据权利...

【专利技术属性】
技术研发人员:石英罗佳齐李振威
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1