一种基于梯度提升决策树的风险行为信息预测方法及系统技术方案

技术编号:38341415 阅读:15 留言:0更新日期:2023-08-02 09:21
本发明专利技术属于人工智能技术领域,公开了一种基于梯度提升决策树的风险行为信息预测方法及系统,获取量表评估数据、房树人绘画特征数据和专家访谈评估数据,将三种数据进行预处理形成模型待识别的数据特征,并运用范围函数把数据合成组合评估数据;模型以组合评估数据特征为预测变量,以专家访谈评估数据中有风险行为的人群为预测目标;最后模型用于新的个体风险行为的预测,将行为预测变量输入梯度提升决策树预测模型中,输出风险行为指数,并划分风险行为水平。本发明专利技术能够避免单一数据源所产生的数据真实性偏差,能精准预测军人的风险行为,并输出模型的预测变量重要性程度,有利于专业人员为存在风险行为的军人提供有效干预手段。手段。手段。

【技术实现步骤摘要】
一种基于梯度提升决策树的风险行为信息预测方法及系统


[0001]本专利技术属于人工智能
,尤其涉及一种基于梯度提升决策树的风险行为信息预测方法及系统。

技术介绍

[0002]目前,风险行为数据的获取大多只限于使用心理量表评估、投射测验、专家访谈评估法中的一种,使用最多的心理量表评估无法准确获取风险行为数据,往往存在说谎倾向。投射测验能够克服文字过多、说谎倾向等问题,通过瞬间的、不经思考的反应测出内心更真实的想法,但很难获取多维数据。专家访谈评估法通过面对面的评估往往能获取更准确的风险行为数据及水平,但评估成本高效率低,难以大规模评估。目前缺乏把三种数据有效结合的数据分析方法,以最大可能的避免样本数据误差。
[0003]在心理学研究关注高维度大数据的背景之下,风险行为评估所涉及的维度越来越多,所获取的数据结构也越来越复杂,对数据分析算法提出了更高的要求。在青少年群体和病理性群体中逐渐涌现基于机器学习(ML)模型的风险行为预测模型,主要包含支持向量机(SVM)、随机森林(RSF)、决策树(DT)、极端梯度增强算法(XGBoost)等预测模型,但每种模型的有效性及精准度受评估维度数据真实性、群体特征和算法适用性的影响。大多数模型的所分析的数据较为单一,只基于心理量表评估数据,往往数据真实性不足,模型的有效性会大大折扣。而且目前并没有发现基于机器学习(ML)模型的军人风险行为信息预测方法。
[0004]通过上述分析,现有技术存在的问题及缺陷为:现有风险行为数据准确性不足及基于机器学习(ML)模型的军人风险行为信息预测方法缺乏,且当前基于国内外军人风险行为不断增加的现实状况以及军队行为干预工作往往陷于“治”而疏于“防”的弊端。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供了一种基于梯度提升决策树的风险行为信息预测方法及系统。
[0006]本专利技术是这样实现的,一种基于梯度提升决策树的风险行为信息预测方法
[0007]系统通过心理量表评估、房树人投射测验和专家访谈评估分别获取量表评估数据、房树人绘画特征数据和专家访谈评估数据,将三种数据进行预处理形成模型待识别的数据特征,并运用范围函数把量表评估数据、房树人绘画特征数据合成组合评估数据;模型以组合评估数据特征为预测变量,以专家访谈评估数据中有风险行为的人群为预测目标,将数据随机划分为训练集和测试集,以训练集数据建立梯度提升决策树模型,将测试集数据特征送入机器学习模型,验证模型效果;最后模型用于新的个体风险行为的预测,将行为预测变量输入梯度提升决策树预测模型中,输出风险行为指数,并划分风险行为水平。
[0008]进一步,基于梯度提升决策树的风险行为信息预测方法包括以下步骤:
[0009]步骤一,通过心理量表评估、房树人投射测验和专家访谈评估分别获取量表评估数据、房树人绘画特征数据和风险行为评判分数;
[0010]步骤二,对数据进行预处理,进行归一化处理形成0至1的统一数据格式,用范围函数纠正量表评估数据和房树人绘画特征数据中相同题项或维度的偏差形成组合评估数据,并运用Spearman积矩相关、点二列相关分析和χ2检验去除相关性较高的其中一个变量,运用二元逻辑回归数据分析方法去除对预测目标没有贡献的冗余变量;
[0011]步骤三,建立训练集和测试集数据,首先,在训练集中,将风险行为评判分数中有风险行为的人群作为预测目标,以二元逻辑回归预测的显著变量抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量,建立军人风险行为梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;另外,在相同数据集上与二元逻辑回归、支持向量机、随机森林、极端梯度增强模型4种不同数据分析方法进行性能比较,进一步证明梯度提升决策树模型的准确性和可靠性。
[0012]步骤四,将新的个体风险行为预测变量输入至梯度提升决策树预测模型,输出风险行为预测值,运用函数公式转化为风险行为指数,并根据一定的规则划分风险行为水平。
[0013]进一步,步骤二中的对数据进行归一化处理包括:
[0014]对数据进行归一化处理形成0至1的统一数据格式,将心理问题分为n个题项,量表评估数据、房树人绘画特征数据和风险行为评判分数收集到的原始数据为1~5之间和1~2之间的数据;将所有数据归一化都转换成0~1之间的一个数值,则归一化公式如下:
[0015][0016]式中,x
i
为第i题项的归一化值,t
i
为样本数据第i题项的值,t
imin
为采集到的所有样本数据第i题项的最小值,t
imax
为采集到的所有样本数据第i题项的最大值。
[0017]进一步,步骤二中的利用Spearman积矩相关、点二列相关分析、χ2检验和二元逻辑回归数据分析方法去除冗余变量包括:使用Spearman积矩相关、点二列相关分析、χ2检验计算预测变量间的关联,删除关联过大的变量,具体包括:
[0018](1)利用Spearman积矩相关计算入伍时间、军衔、死亡无畏、神经质、外向性等15个连续预测变量的相关性,计算公式为:
[0019][0020][0021]式中,为一个预测变量到平均数的距离,为另一个预测变量到平均数的距离;分析发现归属感和社会支持有强相关,说明所测量的心理特质相似性很高,查阅风险行为相关文献,去掉归属感预测变量。
[0022](2)利用点二列相关分析计算性别、精神障碍等5个二分类变量和年龄、入伍时间、军衔、神经质、外向性等15个连续变量的相关性,计算公式为:
[0023][0024]式中,是与二分变量的一个值对应的连续变量的平均数;是与二分变量的另
一个值对应的连续变量的平均数;p和q二分变量的两个值各自所占的比率;s
t
是连续变量的标准差;结果显示变量间相关系数均低于0.4,相关较弱。
[0025](3)利用χ2检验分析计算性别、精神障碍等5个二分类变量之间的相关性,计算公式为:
[0026][0027]式中,f0实际观察次数;f
e
理论观察次数。
[0028]利用二元逻辑回归选择与预测目标相关的数据,具体包括:
[0029](1)对24个回归预测变量X1,X2,X3,

,X
24
分别同预测目标风险行为建立一元逻辑回归模型;
[0030]Odds=e
β0+βiX1+ε

[0031]Log(Odds)=β0+β
i
X1+ε,i=1,

,P;
[0032]Odds=有风险行为/无风险行为;
[0033]计算变量X1,X2,X3,

X
24
,相应的回归系数的检验统计量的值,记为F
1(1)
,

,F
22(1)
,取其中的最大F
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于梯度提升决策树的风险行为信息预测方法,其特征在于,包括:系统通过心理量表评估、房树人投射测验和专家访谈评估分别获取量表评估数据、房树人绘画特征数据和专家访谈评估数据,将三种数据进行预处理形成模型待识别的数据特征,并运用范围函数把量表评估数据、房树人绘画特征数据合成组合评估数据;模型以组合评估数据特征为预测变量,以专家访谈评估数据中有风险行为的人群为预测目标,将数据随机划分为训练集和测试集,以训练集数据建立梯度提升决策树模型,将测试集数据特征送入机器学习模型,验证模型效果;最后模型用于新的个体风险行为的预测,将行为预测变量输入梯度提升决策树预测模型中,输出风险行为指数,并划分风险行为水平。2.如权利要求1所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,基于梯度提升决策树的风险行为信息预测方法包括以下步骤:步骤一,通过心理量表评估、房树人投射测验和专家访谈评估三种风险行为评估方法收集风险行为信息评估数据;步骤二,对数据进行归一化处理,并利用Spearman积矩相关、点二列相关分析、χ2检验和二元逻辑回归数据分析方法去除冗余变量;步骤三,建立训练集和测试集数据,利用训练集训练梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;步骤四,将风险行为预测变量输入至梯度提升决策树预测模型,输出风险行为预测值,利用一定的规则转化为风险行为指数,并划分风险行为水平。3.如权利要求2所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,步骤一之前进一步包括:通过评估工具系统平台获取量表评估数据、房树人绘画特征数据和风险行为评判分数三种评估数据。4.如权利要求2所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,步骤二中的对数据进行归一化处理包括:对数据进行归一化处理形成0至1的统一数据格式;将心理问题分为n个题项,心理特点数据收集到的原始数据为1~5之间和1~2之间的数据;将所有心理数据归一化都转换成0~1之间的一个数值,则归一化公式如下:式中,x
i
为第i题项的归一化值,t
i
为样本数据第i题项的值,t
imin
为采集到的所有样本数据第i题项的最小值,t
imax
为采集到的所有样本数据第i题项的最大值;步骤二中的利用Spearman积矩相关、点二列相关分析、χ2和二元逻辑回归数据分析方法去除冗余变量包括:使用Spearman积矩相关、点二列相关分析、χ2检验计算预测变量间的关联,删除关联过大的变量,具体包括:(1)利用Spearman积矩相关计算入伍时间、军衔、死亡无畏、神经质、外向性等15个连续预测变量的相关性,计算公式为:
式中,为一个预测变量到平均数的距离,为另一个预测变量到平均数的距离;分析发现归属感和社会支持有强相关,说明所测量的心理特质相似性很高,查阅风险行为相关文献,去掉归属感预测变量;(2)利用点二列相关分析计算性别、精神障碍等5个二分类变量和年龄、入伍时间、军衔、神经质、外向性等15个连续变量的相关性,计算公式为:式中,是与二分变量的一个值对应的连续变量的平均数;是与二分变量的另一个值对应的连续变量的平均数;p和q二分变量的两个值各自所占的比率;s
t
是连续变量的标准差;变量间相关系数均低于0.4,相关较弱;(3)利用χ2检验分析计算性别、精神障碍、躯体疾病、物质滥用和依赖情况相关二分类变量之间的相关性,计算公式为:式中,f0实际观察次数;f
e
理论观察次数,且各变量间无相关;利用二元逻辑回归选择与预测目标相关的数据,具体包括:(1)对24个回归预测变量X1,X2,X3,

,X
24
分别同预测目标风险行为建立一元逻辑回归模型;Odds=e
β0+βiX1+ε
;Log(Odds)=β0+β
i
X1+ε,i=1,

,P;Odds=有风险行为/无风险行为;计算变量X1,X2,X3,

X
24
,相应的回归系数的检验统计量的值,记为F
1(1)
,

,F
22(1)
,取其中的最大F
i1(1)
,取其中的最大值,则:F
i1(1)
=max{F
1(1)
,

,F
24(1)
};对给定的显著性水平0.05,记相应的临界值为F
(1)
,F
i1(1)
>F
(1)
,则将X
i1
引入回归模型,记I1为选入变量指标集合;(2)建立预测目标Log(Odds)与预测变量子集{X
i1
,X1},

,{X
i1
,X
i1
‑1},{X
i1
,X
i1+1
},

,{X
i1
,X
24
}的二元回归模型;计算变量的回归系数F检验的统计量值,记为选其中最大者,记为F
i2(2)
,对应预测变量脚标记为i2,则:F
i2(2)
=max{F
1(2)
,

,F
i1

1(2)
,F
i1+1(2)
,

,F
p(2)
};对给定的显著性水平0.05,记相应的临界值为F
(2)
,F
i2(2)
>F
(2)
则变量X
i2
引入回归模型;否则,终止变量引入过程;
(3)基于预测变量对变量子集{X
i1
,X
i2
,X
k
}的回...

【专利技术属性】
技术研发人员:孟祥忠王亦冰吕茜茜
申请(专利权)人:北京民智数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1