一种基于数据挖掘的道路运输安全风险实时评估方法技术

技术编号:24124298 阅读:34 留言:0更新日期:2020-05-13 04:04
本发明专利技术公开一种基于数据挖掘的道路运输安全风险实时评估方法,是基于如下模型计算的:R=P·M,R为安全风险评估值,P为风险源或事故发生的概率评价指数,M为风险源或事故可能造成的损害后果严重性评价指数。本发明专利技术基于大量文本数据挖掘,实现对P和M动态实时获取,获得风险值的实时评估,实现了风险评估随着风险源耦合而实时动态变化,实现了考虑风险源因果关系的风险评估,且实现了评估阈值的自动更新。

【技术实现步骤摘要】
一种基于数据挖掘的道路运输安全风险实时评估方法
本专利技术涉及道路运输安全
,尤其涉及基于文本挖掘、数据关联性挖掘、机器学习技术的道路运输安全风险实时评估方法。
技术介绍
实现道路运输安全风险事前评估是保障道路运输安全生产的基础,也是道路运输安全风险管控的关键环节。风险评估一般基于风险识别,目前,在风险识别环节有一个瓶颈问题:道路运输安全风险的识别很大程度上基于交通事故报告,然而针对交通事故报告中风险源及造成的事故状态的分析基本依靠人工,存在工作量大、依靠专家的认知等缺点。在风险评估环节也有两个瓶颈问题:一是目前对道路运输安全风险的评估基本处于事前对道路运输的综合评估,然而,道路运输安全风险随着驾驶员、车辆状况、道路状况、交通状态的变化是一个动态变化的过程,静态的评估不能满足道路运输安全生产的需求。二是现有的道路运输安全风险评估方法主要分为基于故障树的风险评估、基于风险概率指数的评估和基于模糊理论的风险评估;基于神经网络的评估;以上方法有两点不足:①基于故障树、模糊理论的风险评估很大程度上依靠专家的分析,工作量大的同时,结果随着专家认知的不同而不同;②现有基于神经网络的评估模型较少考虑交通事故发生的推演(也可以叫做“事故链”),即风险源之间的因果关系。由此,为了将道路运输安全风险控制从事后提到事前,实现实时的安全风险防控,研究一种自动识别的、适应不确定因素耦合的、考虑事故风险源之间因果关系的道路运输安全风险实时评估方法是目前道路运输安全生产中迫切需要解决的问题,具有非常好的现实意义和技术价值。<br>
技术实现思路
本专利技术面向风险辨识评估过程中存在的人工工作量大、评估结果随机和无法实现动态实时评估的问题,提出一种基于数据挖掘的道路运输安全风险实时评估方法。其目的是通过该方法减少道路运输安全风险评估过程中人工评估工作量、人工评估结果的随机性,实现动态实时评估,并兼顾考虑事故风险源之间的因果关系。本专利技术基于文本挖掘技术、数据关联性挖掘技术、机器学习技术,采用如下技术方案:一种基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,安全风险评估值是基于如下模型计算的:R=P·M(1)R为安全风险评估值,P为风险源或事故发生的概率评价指数,M为风险源或事故可能造成的损害后果严重性评价指数,“·”表示乘积关系;其中,对于P和M值的获取采取如下方法:步骤1:构建基础道路运输安全风险源清单和/或事故状态清单;步骤2:数据获取;步骤3:数据预处理:首先对步骤2获取的数据清理、去停用词;然后添加步骤1构建的风险源清单和/或事故状态清单;然后进行文本分词;步骤4:近义词替换:对步骤3得到的文本词条进行近义词识别,并按风险源清单中词条和/或事故状态清单中词条表述进行替换;步骤5:风险源或事故状态的动态辨识:利用TF-IDF算法对步骤4得到的文本数据进行风险源和/或事故状态挖掘,计算文本中的TF值、IDF值以及TF-IDF值,提取TF-IDF值明显偏大,且TF值偏高、IDF值偏低的风险源和/或事故状态,加入到风险源清单和/或事故状态清单中予以更新;其中,TF值即公式(1)中的M值;步骤6:构建因果提示词清单和因果句子结构清单;步骤7:“事故链”提取:将步骤4得到的文本进行句子切分,删除不含在步骤6因果提示词清单的句子,再输入步骤5得到的风险源清单和/或事故状态清单,迭代抽取句子中存在因果关系的风险源和/或事故状态;再根据步骤6的因果句子结构清单挖掘出道路运输安全风险“事故链”集I={I1,…,Ir,…,Is}(r=1,2,…,s),Ir表示第r条事故链,s表示事故链总数;步骤8:风险源和/或事故状态相关性挖掘:通过Apriori算法对步骤7得到的事故链进行关联性挖掘,其中事故链中风险源Fi与事故状态Sj关联成立的置信度即为公式(1)中的P值,此置信度值指在满足关联规则下,事故链中Fi发生的条件下,Sj出现的概率。进一步地,在步骤3中,数据清理包括对获取的文本数据中部分缺失值进行去除处理,对重复文本进行单份保存处理;去停用词指的是去除不包含或包含极少语义的词。进一步地,在步骤4中,近义词识别方法是:用改进的汉明距离计算步骤3得到的词条和风险源清单中风险源词条的相似度,设置相似度阈值,若两个词条相似度大于等于阈值,则认为两词为近义词;改进的汉明距离定义为:不同长度的字符串中相同字符的个数。进一步地,在步骤5中,将某个数据文本d的总词数记为c(d),某个风险源Fi在该文本中出现的次数记为c(i),则风险源Fi在该段文本中的TF值为:设采集全部文本总数为D,出现风险源Fi的文本总数为n,则风险源Fi的IDF值为:TF-IDF值为:(TF-IDF)i=TFi×IDFi(4)。进一步地,在步骤8中,对于Fi和Sj关联成立的条件是同时满足两个条件:①它具有支持度sup,即Fi、Sj在事务中同时出现的概率,此概率要大于等于最小支持度minsup;②它具有置信度conf,即在Fi发生的条件下,Sj发生的概率,此概率要大于等于最小置信度minconf;其中minsup和minconf都自定义,可取minsup为0.1,minconf为0.6;sup、conf的计算公式为:其中,num(·)表示含有指定项的个数,s表示总事故链数。进一步地,对于公式(1)得到的安全风险评估值,采用动态评价方法评价其风险等级,方法如下:通过K-means聚类算法对若干动态实时获取的P和M进行无监督训练,构建安全风险等级分类器,然后通过分类器对本次获取的安全风险评估值Ri进行风险定级。进一步地,构建安全风险等级分类器原则如下:假设风险评估值集合为R={R1,R2,…,Rn},Rn表示第n个风险评估值,n为风险评估值个数;假设风险聚类的簇划分为C={C1,C2,…,CK},CK表示第K个簇,即风险等级为K级。则通过使如下误差平方和最小的方法实现风险等级的分类:其中,i∈{1,2,…,n},k∈{1,2,…,K},μk是簇Ck的均值向量。与现有技术相比,本专利技术显著的有益效果体现在:(1)本专利技术基于文本数据挖掘的道路运输运输风险辨识,首先,在减轻人工风险辨识工作量的基础上,突破了人为因素对辨识结果的影响,随着数据库数据的不断更新,风险源的辨识实现了实时的更新;其次,实现了“事故链”的自动抽取,为考虑风险源之间因果关系的风险评估打好基础。(2)本专利技术基于Apriori与K-means算法的道路运输风险评估,实现了风险评估随着风险源耦合而实时动态变化,实现了考虑风险源因果关系的风险评估,另一个实用价值在于实现了评估阈值的自动更新。本专利技术的其他特征和优点将在随后的说明书中阐述,并且部分的从说明书中变得显而易见,或者通过实施本专利技术而了解。附图说明图1为本专利技术提供的一种基本文档来自技高网
...

【技术保护点】
1.一种基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,安全风险评估值是基于如下模型计算的:/nR=P·M (1)/nR为安全风险评估值,P为风险源或事故发生的概率评价指数,M为风险源或事故可能造成的损害后果严重性评价指数,“·”表示乘积关系;/n其中,对于P和M值的获取采取如下方法:/n步骤1:构建基础道路运输安全风险源清单和/或事故状态清单;/n步骤2:数据获取;/n步骤3:数据预处理:首先对步骤2获取的数据清理、去停用词;然后添加步骤1构建的风险源清单和/或事故状态清单;然后进行文本分词;/n步骤4:近义词替换:对步骤3得到的文本词条进行近义词识别,并按风险源清单中词条和/或事故状态清单中词条表述进行替换;/n步骤5:风险源或事故的动态辨识:利用TF-IDF算法对步骤4得到的文本数据进行风险源和/或事故状态挖掘,计算文本中的TF值、IDF值以及TF-IDF值,提取TF-IDF值明显偏大,且TF值偏高、IDF值偏低的风险源和/或事故状态,加入到风险源清单和/或事故状态清单中予以更新;/n其中,TF值即公式(1)中的M值;/n步骤6:构建因果提示词清单和因果句子结构清单;/n步骤7:“事故链”提取:将步骤4得到的文本进行句子切分,删除不含在步骤6因果提示词清单的句子,再输入步骤5得到的风险源清单和/或事故状态清单,迭代抽取句子中存在因果关系的风险源和/或事故状态;再根据步骤6的因果句子结构清单挖掘出道路运输安全风险“事故链”集I={I...

【技术特征摘要】
1.一种基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,安全风险评估值是基于如下模型计算的:
R=P·M(1)
R为安全风险评估值,P为风险源或事故发生的概率评价指数,M为风险源或事故可能造成的损害后果严重性评价指数,“·”表示乘积关系;
其中,对于P和M值的获取采取如下方法:
步骤1:构建基础道路运输安全风险源清单和/或事故状态清单;
步骤2:数据获取;
步骤3:数据预处理:首先对步骤2获取的数据清理、去停用词;然后添加步骤1构建的风险源清单和/或事故状态清单;然后进行文本分词;
步骤4:近义词替换:对步骤3得到的文本词条进行近义词识别,并按风险源清单中词条和/或事故状态清单中词条表述进行替换;
步骤5:风险源或事故的动态辨识:利用TF-IDF算法对步骤4得到的文本数据进行风险源和/或事故状态挖掘,计算文本中的TF值、IDF值以及TF-IDF值,提取TF-IDF值明显偏大,且TF值偏高、IDF值偏低的风险源和/或事故状态,加入到风险源清单和/或事故状态清单中予以更新;
其中,TF值即公式(1)中的M值;
步骤6:构建因果提示词清单和因果句子结构清单;
步骤7:“事故链”提取:将步骤4得到的文本进行句子切分,删除不含在步骤6因果提示词清单的句子,再输入步骤5得到的风险源清单和/或事故状态清单,迭代抽取句子中存在因果关系的风险源和/或事故状态;再根据步骤6的因果句子结构清单挖掘出道路运输安全风险“事故链”集I={I1,…,Ir,…,Is}(r=1,2,…,s),Ir表示第r条事故链,s表示事故链总数;
步骤8:风险源和/或事故状态相关性挖掘:通过Apriori算法对步骤7得到的事故链进行关联性挖掘,其中事故链中风险源Fi与事故状态Sj关联成立的置信度即为公式(1)中的P值,所述置信度值指在满足关联规则下,事故链中Fi发生的条件下,Sj出现的概率。


2.根据权利要求1的基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,步骤3中,数据清理包括对获取的文本数据中部分缺失值进行去除处理,对重复文本进行单份保存处理;去停用词指的是去除不包含或包含极少语义的词。


3.根据权利要求1的基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,步骤4中,近义词识别方法是:用改进的...

【专利技术属性】
技术研发人员:罗文慧蔡凤田夏鸿文曾诚吴初娜孟兴凯王雪然
申请(专利权)人:交通运输部公路科学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1