一种基于大数据的事件概率估计方法技术

技术编号:35596889 阅读:15 留言:0更新日期:2022-11-16 15:16
本发明专利技术公开了一种基于大数据的事件概率估计方法,随着物联网和大数据技术的发展,利用大数据对产品质量、生产安全进行科学分析和统计的需求越来越高。本发明专利技术建立了包括既定事件发生概率估计结果正偏期望、负偏期望以及偏差惩罚项的成本函数,根据大数据统计的样本数据、通过对成本函数最小化寻优获得权重参数的优化解,然后根据权重参数和各实际影响因素值估计既定事件发生的概率。该发明专利技术提供了一种基于物联网和大数据的既定事件概率估计方法,可作为优化如产品质量事件等既定事件中影响要素资源配置的依据,降低不利事件的发生概率,并在事件发生时能及时、迅速调配资源进行处置。置。置。

【技术实现步骤摘要】
一种基于大数据的事件概率估计方法


[0001]本专利技术涉及物联网和大数据
,具体涉及一种基于大数据的事件概率估计方法。

技术介绍

[0002]随着物联网和大数据技术的发展,通过对大数据中与既定事件可能相关的数据分析,可以获得相比传统人为经验分析意想不到的效果,且其科学性和准确性具有明显优势。当代社会生产智能化要求的提高,利用大数据对产品质量、生产安全等既定事件进行科学分析和统计的需求越来越迫切,一方面可以科学预防不利事件的发生,另一方面通过概率估计可以提前优化应急事件处置的资源配置,在事件发生时能及时、迅速处置。
[0003]事实上除以上工业生产过程中的事件需要科学分析外,社会公共事件如跑水、淹亡、火灾事故以及交通、治安、城管等非犯罪案件等也迫切需要对不同类型事件发生概率有一个准确的估计。并据此对公共消防设施、道路电子监控、应急求援车辆、清障装备、救生装备等社会公共资源进行合理配置或调配。
[0004]传统的事件预警主要是根据同期历史数据来预警,预警的准确性和及时性不高;而资源预先配置主要是凭人的经验和粗略估计进行,不够准确,也不够科学。
[0005]随着物联网和信息技术的发展,以及互联网、大数据的运用,对同类事件发生概率进行科学统计有了数据和技术基础,但如何进行统计,如何建立相关要素关系显得尤为重要。

技术实现思路

[0006]有鉴于此,本专利技术提出了一种基于大数据的事件概率估计方法,能有效解决上述现有技术问题。
[0007]本专利技术设计的一种基于大数据的事件概率估计方法,其特征在于,通过样本数据估计各影响因素对事件发生概率的权重参数,根据权重参数估计结果和实际影响因素量化值估计事件发生的概率,依据估计的事件发生概率进行资源配置和决策调整,调整的目标使概率尽可能降低;所述事件一般为公众基本有统一认知的既定事件,如生产过程中产品质量事件、生产安全事件,跑水、淹亡、火灾等社会公共事件,以及交通、治安、城管等非犯罪案件等,如果大数据信息量足够的话,对犯罪案件进行统计亦是可行的;所述权重参数包括零值偏移θ0,以及与所述事件发生概率影响因素一一对应的参数θ
j


1<θ
j
<1;所述影响因素包括时间、区域等,所述事件与至少一个影响因素间不存在显而易见的数学关系或逻辑关系,即至少一个影响因素对事件的影响是不确定的,可能影响也可能不影响,影响大小未知;所述区域包括以物理地域划分的区域、路口,以及某装备所在区域、某装备进料区域、某装备的某操作区域等等,划分的基本原则是能够形成事件的一个基本独立影响要素;
[0008]关于影响因素的定义没有统一的标准、数量也没有限制,具体应依据公共事件类别及其实际影响环境而定,本专利技术提出的时间、区域对大多数事件而言是两个基本影响因
素,可以添加若干其他影响因素。特别是初始计算时,可以添加尽可能多的影响因素,看似相关的因素一般都可添加,甚至部分看似不相关的因素也可以添加,只要大数据中有信息记录、有相关的可能性即可,因为后续计算中,真的不相关因素其权重参数会很小,本专利技术也提出了极小相关因素的剔除方法;
[0009]如产品质量事件的影响因素除上述时间、区域(车间或工位等),一般还包括进料合格率、装备使用年限与其寿命比(可多个装备)、用电负荷、以及工艺过程中的关键方法步骤等要素。事实上,产品质量事件的影响因素不同产品、不同的生产现场、不同工艺流程可能各不一样,具体都应视实际情况而定。其他如交通类事件统计时的车流量要素,跑水类事件的管道接口数量要素,滑坡类事件的地质情况要素,水灾类事件的气象情况、地下管网及堤坝防洪能力等要素,很多公共事件还包括区域内人数、执法人员占比等要素;
[0010]所有历史公共事件发生情况及各影响要素在当代物联网、互联网、信息技术和大数据技术等背景下,其采集、传输和存储都已是相对成熟的技术,关键在于数据积累、分析和应用;所述θ
j
与θ0一并定义,0≤j≤n,其中n为权重参数个数或影响因素个数;包括如下步骤:
[0011]S1:根据权重参数估计方法获取权重参数,所述权重参数估计方法包括经验估计或寻优估计;
[0012]S2:获取所述事件发生概率影响因素量化值x
i
,所述影响因素量化值至少包括时间x1、区域x2;其他因素x3、x4等具体视待统计的事件的类别及其实际影响因素确定;
[0013]S3:根据权重参数计算事件发生的概率函数h
[0014][0015]进一步的,所述经验估计一般由较专业的人员根据概率函数计算模型和影响因素的影响大小进行人工估计,所述步骤S1中权重参数寻优估计方法包括如下步骤:
[0016]记样本数据有m组,第i组样本数据中第j个影响因素量化值为x
i,j
,1≤i≤m;第i组样本实际结果y
i
,y
i
取值方法包括0/1取值或事件数取值;所述0/1取值包括当该组样本有相应类型事件发生时y
i
取1,无事件发生时y
i
取0,同一时间、同一区域发生多起同类事件时作为多个样本进行处理;所述事件数取值包括y
i
取值为对应影响因素x
i,j
下事件发生的件数;
[0017]S11:输入事件发生的样本数据和权重参数初值,一般θ
j
初值均可取0.5;
[0018]S12:针对每一组样本数据,根据权重参数计算概率函数h
i
(x)
[0019][0020]其中,Θ为权重参数矢量,X为模型影响因子矢量,
[0021]S13:针对所有样本得到的概率函数,计算成本函数J(Θ);
[0022][0023]其中,λ为偏差惩罚参数,0≤λ≤1,λ为经验参数,一般为小量;
[0024]S14:针对权重参数矢量Θ对J(Θ)进行寻优,使得J(Θ)最小,即
[0025]Θ=minimize J(Θ)
[0026]所述寻优包括商用机器学习软件自动寻优或权重参数组合遍历寻优;所述权重参数组合遍历寻优包括针对每一个θ
j
按指定步长在取值范围内逐个取值,并取J(Θ)最小θ
j
的组合;
[0027]S15:权重参数再优化,所述权重参数再优化包括通过梯度下降算法进行优化,本步骤为可选步骤;
[0028][0029]其中,θ
j0
为再优化后的权重,α为学习效率,也称为梯度下降的步长,在(0,1)之间取值。
[0030]以上权重参数值一般是针对某类事件,不同类别的事件权重参数一般不同;因此针对不同类事件,一般单独进行权重参数估计和该类事件概率估计。
[0031]进一步的,所述权重参数寻优估计方法还可包括如下步骤:
[0032]步骤S16(也可记为步骤S141):执行上述步骤S14或S15后,无关影响因素剔除和权重参数再确定:根据预先设置的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的事件概率估计方法,其特征在于,通过样本数据估计各影响因素对事件发生概率的权重参数,根据权重参数估计结果和实际影响因素量化值估计事件发生的概率;所述权重参数包括零值偏移θ0,以及与所述事件发生概率影响因素一一对应的参数θ
j


1<θj<1;所述影响因素至少包括时间、区域,所述事件与至少一个影响因素间不存在显而易见的数学关系或逻辑关系,其中0≤j≤n,n为权重参数个数或影响因素个数;包括如下步骤:S1:根据权重参数估计方法获取权重参数,所述权重参数估计方法包括经验估计或寻优估计;S2:获取所述事件发生概率影响因素量化值x
j
,所述影响因素量化值至少包括时间x1、区域x2;S3:根据权重参数计算事件发生的概率函数h2.根据权利要求1所述的一种基于大数据的事件概率估计方法,其特征在于,所述步骤S1中权重参数寻优估计方法包括如下步骤:记样本数据有m组,第i组样本数据中第j个影响因素量化值为x
i,j
,1≤i≤m;第i组样本实际结果y
i
,y
i
取值方法包括0/1取值或事件数取值;所述0/1取值包括当该组样本有相应类型事件发生时y
i
取1,无事件发生时y
i
取0;所述事件数取值包括y
i
取值为对应影响因素x
i,j
下事件发生的件数;S11:输入事件的样本数据和权重参数初值;S12:针对每一组样本数据,根据权重参数计算概率函数h
i
(x)其中,Θ为权重参数矢量,X为模型影响因子矢量,S13:针对所有样本得到的概率函数,计算成本函数J(Θ);其中,λ为偏差惩罚参数,0≤λ≤1;S14:针对权重参数矢量Θ对J(Θ)进行寻优,使得J(Θ)最小,即Θ=minimize J(Θ)所述寻优包括商用机器学习软件自动寻优或权重参数组合遍历寻优;所述权重参数组合遍历寻优包括针对每一个θ
j
按指定步长在取值范围内逐个...

【专利技术属性】
技术研发人员:严洪涛张军
申请(专利权)人:无锡致为数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1