一种基于电子病历数据特征选择的保险定价方法技术

技术编号：33793572 阅读：34 留言：0更新日期：2022-06-12 14:52

本发明专利技术属于数据处理技术领域，具体涉及一种基于电子病历数据特征选择的保险定价方法，该方法包括：获取用户的电子病历数据；将用户的电子病历数据输入到基于均匀设计的混合采样模型中，得到平衡数据集；将平衡数据集中的数据输入到特征选择模型中，得到最优的特征；根据选取的最优特征采用随机森林算法对用户的患病风险进行预测，得到用户患病风险概率；根据用户患病风险概率进行保险定价；本发明专利技术采用HSUD采样模型对用户的电子病历数据中的不平衡数据集进行处理，得到了平衡数据集，提高了数据处理准确度。了数据处理准确度。了数据处理准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于电子病历数据特征选择的保险定价方法

[0001]本专利技术属于数据处理
，具体涉及一种基于电子病历数据特征选择的保险定价方法。

技术介绍

[0002]随着医疗体系的日益完善，疾病保险也应该逐渐覆盖所有疾病，特别是重大疾病和慢性疾病、例如各种癌症、遗传病、精神疾病、传染病等，这些疾病一般治疗时间长、治疗费用大。为给患者减轻经济负担，需要设立相应的疾病保险，而疾病保险的定价会对保险产生重大影响。
[0003]现有的疾病保险定价方法都为对患者的患病风险进行预测，并根据预测结果对患者的保险进行定价。专利申请号为201710877528.0的《一种基于电子病历数据驱动的妊娠期糖尿病预测方法》公开了一种基于电子病历数据驱动的妊娠期糖尿病预测方法，使用临床数据构建了关于确诊的标记数据集，并将其划分为用于模型训练和测试的2个子集。通过支持向量机、贝叶斯网络、决策树以及基于集成的混合模型进行预测，实现妊娠期糖尿病模式分类。但是上述方法中对于对于非平衡数据的机器学习是通过代价敏感性方法进行处理的；而对临床数据的非平衡性常需...

【技术保护点】

【技术特征摘要】
1.一种基于电子病历数据特征选择的保险定价方法，其特征在于，包括：获取用户的电子病历数据，将获取的电子病历数据输入到保险定价模型中，得到该用户的保险定价结果；采用保险定价模型对用户的电子病历数据进行处理的过程包括：S1：将用户的电子病历数据输入到基于均匀设计的混合采样模型HSUD中，得到平衡数据集；并采用特征选择模型对平衡数据集中的特征进行选择，得到最优的特征；S2：根据选取的最优特征采用随机森林机器学习算法进行用户患病风险预测，得到用户患病风险概率；S3：根据用户患病风险概率进行保险定价。2.根据权利要求1所述的一种基于电子病历数据特征选择的保险定价方法，其特征在于，采用混合采样模型对用户的不平衡电子病历数据进行特征选择处理的过程包括：S11：初始化混合采样模型，包括设置过采样参数(P
n
,P
m
)、采样区域C
s
以及采样次数R，采样参数设计点满足其中，Pn表示少样本采样参数，Pm表示多样本采样参数，s表示采样区域的维数；S12：在采样区域中随机选取R组设计点，组成均匀设计点，即选取的R组设计点均匀的分布在采样区域中；设置一轮采样参数(P
1n
,P
1m
)；S13：在均匀设计点中，计算每个均匀设计点的CL2‑
偏差准则，并选出最优的均匀设计点；CL2‑
偏差准则的计算表达式为：其中，U
*
表示最优的均匀设计点，U
R
(R2)表示均匀设计点组，R表示采样次数，U表示选取的均匀设计点；S14：根据最优的均匀设计点获取少数群体抽样的比例参数M(over)和多数类抽样的比例参数为M(under)；S15：根据少数群体抽样的比例参数M(over)对不平衡数据集种的数据进行过采样，根据多数类抽样的比例参数为M(under)对不平衡数据集种的数据进行随机欠采样，得到平衡数据集；S16：将平衡数据集中的特征输入到特征选择模型中进行特征选择，输出特征选择结果以及特征的评价结果AUC值和Risk值；S17：对不同采样参数的评价结果进行比较，当AUC值最高且Risk值最低时，停止迭代，输出这一轮最优采样参数(P
1n*
,P
1m*
)；S18：根据均匀设计原则对第一轮最优采样参数(P
1n*
,P
1m*
)的附近点设置第二轮采样参数(P
2n
,P
2m
)，重复步骤S12～S17；S19：得到新一轮最优采样参数(P
2n*
,P
2m*
)与评价结果，当所有的不平衡电子病历数据的特征选择完，则输出最优特征。3.根据权利要求2所述的一种基于电子病历数据特征选择的保险定价方法，其特征在于，采用特征选择模型对平衡数据集中的数据进行特征选择的过程包括：S161：提取平衡数据集中的特征，并对提取的特征进行筛选，得到初始特征，将所有的初始特征进行集合，得到特征子集；S162：以特征子集作为搜索起点，采用搜索策略从平衡数据集未选择的特征中选取一
个特征，加入到特征子集；S163：采用评价函数对选取的特征进行评价，若评价结果满足终止条件，则输出特征子集，若不满足终止条件，则返回步骤S32；S164：将特征子集中的特征输入到机器学习模型中，计算特征子集中每个特征集合的AUC值和Risk值；S165：各个特征集合根据AUC值和Risk值进行比较，将AUC值和Risk值最低的特征集合作为最优特征。4.根据权利要求3所述的一种基于电子病...

【专利技术属性】
技术研发人员：余海燕，缪红霞，邱航，王利亚，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人