【技术实现步骤摘要】
一种基于数据挖掘的道路运输安全风险实时评估方法
本专利技术涉及道路运输安全
,尤其涉及基于文本挖掘、数据关联性挖掘、机器学习技术的道路运输安全风险实时评估方法。
技术介绍
实现道路运输安全风险事前评估是保障道路运输安全生产的基础,也是道路运输安全风险管控的关键环节。风险评估一般基于风险识别,目前,在风险识别环节有一个瓶颈问题:道路运输安全风险的识别很大程度上基于交通事故报告,然而针对交通事故报告中风险源及造成的事故状态的分析基本依靠人工,存在工作量大、依靠专家的认知等缺点。在风险评估环节也有两个瓶颈问题:一是目前对道路运输安全风险的评估基本处于事前对道路运输的综合评估,然而,道路运输安全风险随着驾驶员、车辆状况、道路状况、交通状态的变化是一个动态变化的过程,静态的评估不能满足道路运输安全生产的需求。二是现有的道路运输安全风险评估方法主要分为基于故障树的风险评估、基于风险概率指数的评估和基于模糊理论的风险评估;基于神经网络的评估;以上方法有两点不足:①基于故障树、模糊理论的风险评估很大程度上依靠专家的分析,工作量大的同时,结果随着专家认知的不同而不同;②现有基于神经网络的评估模型较少考虑交通事故发生的推演(也可以叫做“事故链”),即风险源之间的因果关系。由此,为了将道路运输安全风险控制从事后提到事前,实现实时的安全风险防控,研究一种自动识别的、适应不确定因素耦合的、考虑事故风险源之间因果关系的道路运输安全风险实时评估方法是目前道路运输安全生产中迫切需要解决的问题,具有非常好的现实意义和技术价值。< ...
【技术保护点】
1.一种基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,安全风险评估值是基于如下模型计算的:/nR=P·M (1)/nR为安全风险评估值,P为风险源或事故发生的概率评价指数,M为风险源或事故可能造成的损害后果严重性评价指数,“·”表示乘积关系;/n其中,对于P和M值的获取采取如下方法:/n步骤1:构建基础道路运输安全风险源清单和/或事故状态清单;/n步骤2:数据获取;/n步骤3:数据预处理:首先对步骤2获取的数据清理、去停用词;然后添加步骤1构建的风险源清单和/或事故状态清单;然后进行文本分词;/n步骤4:近义词替换:对步骤3得到的文本词条进行近义词识别,并按风险源清单中词条和/或事故状态清单中词条表述进行替换;/n步骤5:风险源或事故的动态辨识:利用TF-IDF算法对步骤4得到的文本数据进行风险源和/或事故状态挖掘,计算文本中的TF值、IDF值以及TF-IDF值,提取TF-IDF值明显偏大,且TF值偏高、IDF值偏低的风险源和/或事故状态,加入到风险源清单和/或事故状态清单中予以更新;/n其中,TF值即公式(1)中的M值;/n步骤6:构建因果提示词清单和因果句子结构清单;/ ...
【技术特征摘要】
1.一种基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,安全风险评估值是基于如下模型计算的:
R=P·M(1)
R为安全风险评估值,P为风险源或事故发生的概率评价指数,M为风险源或事故可能造成的损害后果严重性评价指数,“·”表示乘积关系;
其中,对于P和M值的获取采取如下方法:
步骤1:构建基础道路运输安全风险源清单和/或事故状态清单;
步骤2:数据获取;
步骤3:数据预处理:首先对步骤2获取的数据清理、去停用词;然后添加步骤1构建的风险源清单和/或事故状态清单;然后进行文本分词;
步骤4:近义词替换:对步骤3得到的文本词条进行近义词识别,并按风险源清单中词条和/或事故状态清单中词条表述进行替换;
步骤5:风险源或事故的动态辨识:利用TF-IDF算法对步骤4得到的文本数据进行风险源和/或事故状态挖掘,计算文本中的TF值、IDF值以及TF-IDF值,提取TF-IDF值明显偏大,且TF值偏高、IDF值偏低的风险源和/或事故状态,加入到风险源清单和/或事故状态清单中予以更新;
其中,TF值即公式(1)中的M值;
步骤6:构建因果提示词清单和因果句子结构清单;
步骤7:“事故链”提取:将步骤4得到的文本进行句子切分,删除不含在步骤6因果提示词清单的句子,再输入步骤5得到的风险源清单和/或事故状态清单,迭代抽取句子中存在因果关系的风险源和/或事故状态;再根据步骤6的因果句子结构清单挖掘出道路运输安全风险“事故链”集I={I1,…,Ir,…,Is}(r=1,2,…,s),Ir表示第r条事故链,s表示事故链总数;
步骤8:风险源和/或事故状态相关性挖掘:通过Apriori算法对步骤7得到的事故链进行关联性挖掘,其中事故链中风险源Fi与事故状态Sj关联成立的置信度即为公式(1)中的P值,所述置信度值指在满足关联规则下,事故链中Fi发生的条件下,Sj出现的概率。
2.根据权利要求1的基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,步骤3中,数据清理包括对获取的文本数据中部分缺失值进行去除处理,对重复文本进行单份保存处理;去停用词指的是去除不包含或包含极少语义的词。
3.根据权利要求1的基于数据挖掘的道路运输安全风险实时评估方法,其特征在于,步骤4中,近义词识别方法是:用改进的...
【专利技术属性】
技术研发人员:罗文慧,蔡凤田,夏鸿文,曾诚,吴初娜,孟兴凯,王雪然,
申请(专利权)人:交通运输部公路科学研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。