一种针对高速公路的特情分析方法、设备及介质技术

技术编号:39296307 阅读:11 留言:0更新日期:2023-11-07 11:04
本申请公开了一种针对高速公路的特情分析方法、设备及介质,方法包括:获取历史特情数据,得到对应的文本向量数据;基于局部密度的聚类算法,对文本向量数据进行聚类;基于并行关联规则算法,对聚类后的文本向量数据进行支持度计算,并基于频繁项集,生成满足置信度预支的关联规则数据,得到多个特情数据类别;针对每个特情数据类别,进行核心特征词的提取,得到该特情数据类别对应的类别模型;获取新特情数据,确定与新特情数据的相似特情数据集合。通过快速聚类、关联分析、核心特征词提取以及类别模型的建立,针对于新特情数据,能够快速在历史特情数据中,找到相似的特情数据,以便于工作人员能够进行快速处理。便于工作人员能够进行快速处理。便于工作人员能够进行快速处理。

【技术实现步骤摘要】
一种针对高速公路的特情分析方法、设备及介质


[0001]本申请涉及交通控制系统领域,具体涉及一种针对高速公路的特情分析方法、设备及介质。

技术介绍

[0002]随着社会服务以及交通运输业的不断发展,高速公路特情(特情指的是特殊情况的简称,比如,收费特情、事故、交通拥堵、天气突变等)中的问题愈发多样化,同时随着高速公路通车里程的不断增大,各种特情受理量也越来越大。目前,高速特情处理的方式大多以人工办理为主,当出现特殊情况,相关工作人员通过电话、对讲机或监控系统接收用户报告,并采取相应措施。
[0003]但这种方式对工作人员的业务熟悉度要求较高,新员工通常需要大量培训后才能胜任岗位。同时随着特情受理信息的不断变大,使业务人员逐渐呈现出工作效率低下等问题。

技术实现思路

[0004]为了解决上述问题,本申请提出了一种针对高速公路的特情分析方法,包括:获取历史特情数据,并对所述历史特情数据进行预处理,得到对应的文本向量数据;基于局部密度的聚类算法,对所述文本向量数据进行聚类;基于并行关联规则算法,对聚类后的所述文本向量数据进行支持度计算,得到频繁项集,并基于所述频繁项集,生成满足置信度预支的关联规则数据,以根据所述关联规则数据进行数据分类,得到多个特情数据类别;针对每个特情数据类别,进行核心特征词的提取,并基于所述核心特征词对应的权重值,得到该特情数据类别对应的类别模型;获取新特情数据,基于所述类别模型,对所述新特情数据进行分析,以确定与所述新特情数据的相似特情数据集合。
[0005]另一方面,本申请还提出了一种针对高速公路的特情分析设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:上述示例中所述的针对高速公路的特情分析方法。
[0006]另一方面,本申请还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:上述示例中所述的针对高速公路的特情分析方法。
[0007]通过本申请提出针对高速公路的特情分析方法能够带来如下有益效果:通过快速聚类、关联分析、核心特征词提取以及类别模型的建立,针对于新特情数
据,能够快速在历史特情数据中,找到相似的特情数据,以便于工作人员能够进行快速处理。并且其中采用了无监督训练的手段,即使特情数据不断扩大,相似特情不断增加,也无需人工标注,就能够实现准确查询相似特情。
附图说明
[0008]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例中针对高速公路的特情分析方法的流程示意图;图2为本申请实施例中针对高速公路的特情分析设备的示意图。
具体实施方式
[0009]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0010]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0011]通过对高速公路特情数据的分析发现,在各式各样的特情信息中存在部分的相似特情,相似特情的办理方法大致相同,若将相似特情的办理情况提供给业务人员借鉴,可大大提高业务人员工作效率,提高高速运营单位服务质量。
[0012]基于此,提出了基于人工标记、统计学等与业务人员经验知识相融合的方法进行相似特情的半智能筛选。比如,通过人工标记的方法,基于已获取的大量历史特情数据,采用人工标记的方式对每一历史数据进行类别标识(比如,事故、拥堵、收费等),将此标签作为参数存储在数据库中,当得到一条新特情数据后,可经过数据库查询对历史标签进行匹配查询,筛选出该新特情的相似特情。
[0013]然而,随着高速公路特情问题不断多样化,相似特情不断增多,新词不断出现,数据愈发嘈杂,导致该相似特情筛选方法准确率不高且时间复杂度偏高,业务人员在业务办理时可能存在对相似特情的参考性不强,致使特情业务量不断加大,办理效率与服务质量难以满足出行公众的需求。
[0014]基于此,提出了如图1所示,本申请实施例提供一种针对高速公路的特情分析方法,包括:S101:获取历史特情数据,并对所述历史特情数据进行预处理,得到对应的文本向量数据。
[0015]具体地,预处理过程可以包括:在历史特情数据中,将预设的特殊符号以及标点符号去除。在剩余的文本数据中,将历史特情数据进行分割(也可以称作数据分词),并进行词形并归,将分割后得到的单词或词组还原为原始词形,进行文本词向量的训练,以将原始词形进行文本规范化,得到对应的文本向量数据。当然,还可以对其中的文本数据进行拼接纠正。
[0016]对历史特情数据的预处理,从而进行数据清洗、转换和整理,使其成为适合后续文本聚类、挖掘任务的规范化文本数据。
[0017]S102:基于局部密度的聚类算法,对所述文本向量数据进行聚类。
[0018]对已经规范化得到的文本向量数据,基于局部密度的快速聚类算法对特情数据进行聚类,实现整体特情数据分类。
[0019]具体地,局部密度描述了一个数据节点周围数据的聚集程度。相对距离描述了一个数据节点与其它具有较大局部密度的数据节点的距离。若一个数据节点的局部密度值与相对距离值都较大,说明它本身周围有较多数据节点,且距离另一个周围有较多数据节点的数据节点距离较远,则认为其是一个聚类中心。
[0020]针对每条文本向量数据,将其作为一个数据节点,并确定数据节点对应的坐标数据,也就是其对应的向量方向和向量长度得到的坐标数据。通过坐标数据,以及预设的dc值,确定数据节点对应的局部密度。
[0021]确定局部密度高于预设密度阈值的若干个数据节点,并将该若干个数据节点作为聚类中心;针对其他的数据节点,确定与该若干个数据节点之间的相对距离,若相对距离均高于预设距离阈值,则确定该其他的数据节点为聚类中心,每个聚类中心以及周围的其他数据节点构成了一个类别。
[0022]其中,预设距离阈值也可以称作截断距离,基于总的数据总量(通过所有数据节点之间的平均距离与对应权重的乘积,再进行累加求和得到)进行动态更新,数据总量越大,该预设举例阈值通常也越大。
[0023]S103:基于并行关联规则算法,对聚类后的所述文本向量数据进行支持度计算,得到频繁项集,并基于所述频繁项集,生成满足置信度预支的关联规则数据,以根据所述关联规则数据进行数据分类,得到多个特情数据类别。
[0024]采用并行的Apriori关联规则算法对已分类的特情数据进行分组,根据文本数据间的强关联性,分为不同特情类型集合。
[0025]具体地,确定动态设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对高速公路的特情分析方法,其特征在于,包括:获取历史特情数据,并对所述历史特情数据进行预处理,得到对应的文本向量数据;基于局部密度的聚类算法,对所述文本向量数据进行聚类;基于并行关联规则算法,对聚类后的所述文本向量数据进行支持度计算,得到频繁项集,并基于所述频繁项集,生成满足置信度预支的关联规则数据,以根据所述关联规则数据进行数据分类,得到多个特情数据类别;针对每个特情数据类别,进行核心特征词的提取,并基于所述核心特征词对应的权重值,得到该特情数据类别对应的类别模型;获取新特情数据,基于所述类别模型,对所述新特情数据进行分析,以确定与所述新特情数据的相似特情数据集合。2.根据权利要求1所述的方法,其特征在于,对所述历史特情数据进行预处理,具体包括:在所述历史特情数据中,将预设的特殊符号以及标点符号去除;在剩余的文本数据中,将所述历史特情数据进行分割,并将分割后得到的单词或词组还原为原始词形;进行文本词向量的训练,以将所述原始词形进行文本规范化,得到对应的文本向量数据。3.根据权利要求2所述的方法,其特征在于,基于局部密度的聚类算法,对所述文本向量数据进行聚类,具体包括:针对每条文本向量数据,将其作为一个数据节点,并确定所述数据节点对应的坐标数据;通过所述坐标数据,以及预设的dc值,确定所述数据节点对应的局部密度;确定所述局部密度高于预设密度阈值的若干个数据节点,并将该若干个数据节点作为聚类中心;针对其他的数据节点,确定与该若干个数据节点之间的相对距离,若所述相对距离均高于预设距离阈值,则确定该其他的数据节点为聚类中心。4.根据权利要求3所述的方法,其特征在于,所述预设距离阈值为动态更新的,所述预设距离阈值的确定过程包括:根据所有数据节点之间的平均距离,以及对应权重,得到数据总量,并根据所述数据总量动态更新所述预设距离阈值。5.根据权利要求1所述的方法,其特征在于,基于并行关联规则算法,对聚类后的所述文本向量数据进行支持度计算,得到频繁项集,具体包括:确定动态设置的支持度阈值,基于所述支持度阈值,对所述文本向量数据对应的关键词集中的关键词进行阈值判断;若所述关键词对应的支持度不小于所述支持度阈值,则将该关键词作为频繁项集中的频繁关键词;迭代使用已得到的频繁项集,以通过剩余关...

【专利技术属性】
技术研发人员:万青松房宏基席永轲迟猛程卫平尹淑婷
申请(专利权)人:山东高速信息集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1