一种基于边际零截断泊松模型的建模分析及预测方法技术

技术编号:34368629 阅读:55 留言:0更新日期:2022-07-31 10:02
一种基于边际零截断泊松模型的建模分析及预测方法,包括对零截断泊松分布的总体均值建模而非对标准泊松参数建模,构建参数估计的基于随机表示的EM

A modeling analysis and prediction method based on marginal zero Truncated Poisson model

【技术实现步骤摘要】
一种基于边际零截断泊松模型的建模分析及预测方法


[0001]本专利技术涉及金融保险中的计数型数据分析领域,特别是涉及一种带有零截断特征的计数数据的建模和预测分析方法。

技术介绍

[0002]零截断型计数数据一般特指观测数据为1、2、3、4......这样大于0的正整数型数据,此类数据广泛出现于金融保险、交通安全以及医疗健康等领域。例如,无论是财产保险还是人身保险,投保人在一个保障年度内所购买的保单数量至少为1份,具有典型的零截断型计数特征。对于保险公司而言,无论是财产保险还是人身保险,如何挖掘出那些影响投保人购买保单数量的潜在因素并进行精准预测是有效增加投保人保险标的数量、提高企业经营效益的关键问题之一。为了实现这一目标,我们需要构建恰当的统计模型来准确衡量零截断观测频数与候选影响因子之间的联系;同时,发展有效的预测方法来提升模型的预测性能、降低预测误差。
[0003]零截断泊松模型是研究零截断型计数数据的主流方法之一。然而,目前有关零截断泊松模型的研究主要基于标准泊松参数来建立对数回归模型而非关于零截断情形下的总体均值来建模,使得感兴趣的影响因子对总体均值的影响无法被直接衡量,从而可能产生较大误差甚至引起令人误导的结果。此外,有关零截断泊松模型下如何提升模型的预测性能缺乏系统的研究,通常的做法只是基于所选择的模型来简单展示预测效果。然而,模型选择本身具有不稳定性,没有证据表明对于样本数据拟合最优的模型其预测误差也一定是最小的。因而,通过模型选择方法挑选出来的模型进行预测存在一定风险。

技术实现思路
<br/>[0004]鉴于上述现有技术的不足,本专利技术实施例的目的在于提供一种基于边际零截断泊松模型的建模分析及预测方法,旨在改善现有模型间接评价影响因子效用的不足、提高模型预测的准确性及精确性。
[0005]本专利技术实施例的技术方案如下:
[0006]一种基于边际零截断泊松模型的建模分析及预测方法,其中,包括步骤:
[0007]从零截断泊松分布的总体均值出发构建边际零截断泊松模型代替对标准泊松参数建模,应用于金融保险中建立零截断观测频数与感兴趣的潜在影响因子(如性别、年龄、学历、职业类型、年收入、家庭结构、健康状况、地域等)之间的直接联系;
[0008]根据所述边际零截断泊松模型,构建参数估计的有效算法;
[0009]根据所述边际零截断泊松模型,构建模型平均预测理论框架,建立候选模型最优权重筛选准则,以实现对零截断计数特征的总体情况进行预测以指导相关决策和方案的制定。
[0010]作为本专利技术实施例的一种优选技术方案,所述边际零截断泊松模型由随机表示方法构建。
[0011]作为本专利技术实施例的一种优选技术方案,所述边际零截断泊松均值与标准泊松参数之间的联系采用Taylor展式进行线性近似。
[0012]作为本专利技术实施例的一种优选技术方案,所述边际零截断泊松模型由基于随机表示的EM

FS算法实现参数估计。
[0013]通过对log(μ

1)建立回归模型以消除对回归系数向量β施加的未知特定约束,从而保证μ>1成立;
[0014]通过Taylor展式对零截断泊松分布的总体均值μ与标准泊松参数λ之间的非线性超越关系进行线性近似,降低计算复杂度。
[0015]作为本专利技术实施例的一种优选技术方案,所述模型平均方法采用Kullback

Leibler偏差度量预测损失。
[0016]作为本专利技术实施例的一种优选技术方案,所述模型平均方法利用扰动技术构造Kullback

Leibler近似无偏准则来获得候选模型最优权重组合。
[0017]作为本专利技术实施例的一种优选技术方案,所述模型平均方法在感兴趣的潜在影响因子数量较多时采用排序模型筛选策略来减少候选模型数量。
[0018]与现有技术相比,本专利技术实施例能达到的有益效果是:
[0019]1、本专利技术实施例中,通过对零截断泊松分布的总体均值建模,能够为科学合理评估潜在影响因子对于零截断观测频数的直接影响(包括影响的方向及影响程度)提供理论支撑,减少估计误差、避免引起令人误导的结果。
[0020]2、本专利技术实施例中,通过边际零截断泊松模型框架下最优候选模型权重组合筛选准则,能够保证基于该准则下得到的权重组合,可以使模型平均预测损失在样本量充分大的情况下无限逼近于最小损失,从而避免模型选择带来的不确定性以及其它风险,达到有效提升模型预测效果的目的,同时也为相关政策制度及决策评价提供数据支撑。
[0021]3、本专利技术实施例中,结合了近年来零截断型计数数据研究、统计计算方法以及模型预测理论方面的新思路新成果,在模型设定、最优权重筛选和候选模型优化等方面给出了与所研究问题相适应的有针对性的研究方案,丰富和发展了现有的零截断型计数数据分析的理论和应用。
附图说明
[0022]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图做简单地介绍:
[0023]图1为本专利技术实施例提供的统计模型的推断方法的流程图;
[0024]图2为本专利技术实施例提供的统计模型的参数估计方法的效果图;
[0025]图3为本专利技术实施例提供的统计模型的模型平均预测方法的流程图;
[0026]图4为本专利技术实施例提供的统计模型的模型平均预测方法的效果图。
具体实施方式
[0027]为了使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整的描述。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下
所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术实施例提供一种基于边际零截断泊松模型的模型平均预测理论框架,该方法可应用于金融保险等实际场景以提供更加准确的预测效果。
[0029]为便于对本专利技术实施例进行理解,首先对本专利技术实施例所公开的一种边际零截断泊松模型的构建方法及参数估计方法进行详细介绍,该方法可用于研究零截断观测频数产生的内在行为机制。如图1所示,该方法包括如下步骤:
[0030]步骤S101,确定研究对象及感兴趣的潜在影响因子,构建边际零截断泊松模型。令W
j
为来自于零截断泊松分布ZTP(λ
j
)的随机变量,j=1,...,n,且W1,...,W
n
相互独立。则W
j
的总体均值为
[0031][0032]显然,μ
j
为λ
j
的非线性超越函数。考虑下述回归模型
[0033][0034]其中,v
j
=(1,V
1j
,...,V
pj
)
T
为潜在影响因子向量,β=(β0,β1,...,β...

【技术保护点】

【技术特征摘要】
1.一种基于边际零截断泊松模型的建模分析及预测方法,其特征在于,该方法应用于金融保险中的计数型数据分析,所述方法包括:从零截断泊松分布的总体均值μ出发构建边际零截断泊松模型代替对标准泊松参数建模,建立零截断观测频数与感兴趣的潜在影响因子之间的直接联系;根据所述边际零截断泊松模型,构建参数估计的有效算法;根据所述边际零截断泊松模型,构建模型平均预测理论框架,建立候选模型最优权重筛选准则,以实现对零截断计数特征的总体情况进行预测以指导相关决策和方案的制定。2.根据权利要求1所述的方法,其特征在于,建立边际零截断泊松模型的方法,包括:对零截断泊松分布的总体均值μ建立对数回归模型;发展参数极大似然估计的基于随机表示的EM

FS算法;通过对log(μ

1)建立回归模型以消除对回归系数向量β施加的未知特定约束,以保证μ>1成立;通过Taylor展式对零截断泊松分布的总体均值μ与标准泊松参数λ之间的非线性超越关系进行线性近似,降低计算复杂度。3.根据权利要求1所述的方法,其特征在于,建立基于所述边际零截断泊松模型的模型平均预测方法的步骤,包括:明确所有潜在影响因子,通过组合确定所有候选模型;建立所述边际零截断泊松模型的候选模型最优权重筛选的Kullback

Leibler近似无偏准则;基于Kullback

Leibler偏差定义预测损失评价指标,利用扰动技术确定Kullback

Leibler偏差的期望的近似无偏估计作为优化目标函数;利用Kullback

Leibler近似无偏准则确定的最优权重组合计算零截断计数数据的模型平均预测。4.根据权利要求2所述的方法,其特征在于,还包括:步骤S101,确定研究对象及感兴趣的潜在影响因子,构建边际零截断泊松模型,具体如下:令W
j
为来自于零截断泊松分布ZTP(λ
j
)的随机变量,j=1,...,n,且W1,...,W
n
相互独立;则W
j
的总体均值为μ
j
为λ
j
的非线性超越函数;下述回归模型其中,v
j
=(1,V
1j
,...,V
pj
)
T
为潜在影响因子向量,β=(β0,β1,...,β
p
)
T
为系数向量。5.根据权利要求4所述的方法,其特征在于,还包括:步骤S102,由于(1)式定义的函数h(λ
j
)可导并可逆,利用Taylor展式得到μ
j
与λ
j
的一阶线性近似如下所示:其中,λ
0j
为λ
j
邻域内的一个近似点。
6.根据权利要求5所述的方法,其特征在于,还包括:步骤S103,基于随机表示引入隐变量U1,...,U
n
来将零截断泊松计数数据补充完整为标准泊松计数数据,从而得到完全观测数据似然函数;其中,X
j
~Poisson(λ
j
),且U
j
和W
j
相互独立;由此可得隐变量在给定观测数据下的条件预测期望为:由完全观测数据似然函数出发可构建β极大似然估计求解的基于随机表示的EM

FS算法如下:M步:基于完全观测似然函数由Fisher

Scoring算...

【专利技术属性】
技术研发人员:刘寅李文慧张新雨
申请(专利权)人:中南财经政法大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1