一种疾病风险等级预测模型及其构建方法和应用技术

技术编号:34565678 阅读:14 留言:0更新日期:2022-08-17 12:55
本发明专利技术提供了一种疾病风险等级预测模型及其构建方法和应用。所述预测模型通过如下方法构建:获取体检人员的体检报告数据作为数据集,划分患疾病的人群和未患疾病的人群,再将所述数据集中的多元数据转化为应用级结构化数据并填充,采用机器学习方法进行学习,而后,扩大正样本训练集,采用最优指标递减的方法进行建模,再进行模型融合,得到所述疾病风险等级预测模型。所得疾病风险等级预测模型可以高效、快速、准确地预测患者出现疾病的风险等级,对疾病的早防早治提供可能。对疾病的早防早治提供可能。对疾病的早防早治提供可能。

【技术实现步骤摘要】
一种疾病风险等级预测模型及其构建方法和应用


[0001]本专利技术属于医疗数据处理
,具体涉及一种疾病风险等级预测模型及其构建方法和应用。

技术介绍

[0002]随着社会的不断进步和发展,人们的工作压力和生活压力在无形之中增加,外加饮食安全、辐射、环境污染等一系列外来因素急剧加速隐匿性重大疾病的发病率年轻化,这些重大疾病普遍具有隐匿性强,发病率高、危害性大等特点。由于疾病早期病状特征并不显著,一旦到后期阶段,危害性很大,对人的生活质量、工作、家庭甚至对人的生命都会产生重大影响。因此,对于重大疾病的早期发现和预防就显得尤为重要。
[0003]定期体检是一种方便有效的了解自身健康状况的途径。一般而言,体检项目包括:临床体检科室体检项目、仪器体检科室体检项目和实验室体检科室体检项目。结合医生丰富的临床经验、设备的辅助检测以及血尿便的实验室化学检测数据,能够全方位对个体的身体状况进行评估,起到重大疾病的早发现、早诊断、早治疗的原则。
[0004]CN112863659A公开了一种体检服务管理方法、装置、电子终端及存储介质,该方法包括:响应于用户端的预约请求,确定体检预约信息,其中体检预约信息包括体检项目;从预设数据库中获取与用户端对应的病史数据,根据病史数据以及体检项目,生成体检注意事项;将体检注意事项,发送至所述用户端。该专利技术中实现了智能化的体检服务管理,达到了节约资源消耗的技术效果,方便人们进行体检预约和检测。
[0005]CN112349415A公开了一种基于体检大数据的居民健康指数构建方法、装置及存储介质。该方法包括:获取居民体检数据,并构建包含居民各体检项目检查结果的第一体检数据集;对所述第一体检数据进行预处理,从而构建第二体检数据集;对所述第二体检数据集进行归一化处理从而得到第三体检数据集,并求取各体检项目的指标权重;对所述第二体检数据集进行同向化处理从而得到第四体检数据集,并构建最优健康人的体检数据和最差健康人的体检数据;获取第一健康距离和第二健康距离;基于所述第一健康距离和第二健康距离计算个体健康指数。该专利技术基于体检大数据,针对体检者的体检项和未体检项,综合评价体检者的健康指数,进而为综合评价居民的健康程度提供数据基础。
[0006]然而目前,本领域尚未提出一种根据个人的体检数据准确预测和判断个体患有某一疾病的风险的方法或模型。

技术实现思路

[0007]针对现有技术存在的不足,本专利技术的目的在于提供一种疾病风险等级预测模型及其构建方法和应用。本专利技术结合体检报告数据和临床数据进行分析,开发了一种新型人工智能融合模型,用于准确预测和判断现患某一疾病的风险,可以更高效、快速地预测患者患疾病的风险等级,以确定他们是否存在无症状或暂时无症状的疾病,提高了预测效果的准确度和精确性,对疾病的早期筛选、早防早治提供可能。
[0008]为达此目的,本专利技术采用以下技术方案:
[0009]第一方面,本专利技术提供一种疾病风险等级预测模型的构建方法,其特征在于,所述构建方法包括:
[0010]S1、获取有门诊记录或住院记录的体检人员的体检报告数据作为数据集,对所述数据集中患某一特定疾病的人群和未患所述特定疾病的人群进行划分;
[0011]S2、将所述数据集中的非结构化的多元数据转化为应用级结构化数据,并对所得应用级结构化数据进行填充;
[0012]S3、以填充后的数据为训练集,采用机器学习方法进行学习,筛选并获取所述特定疾病的重要特征指标;
[0013]S4、以所述有门诊记录或住院记录的体检人员的体检报告数据划分成的正负样本集训练模型,而后,筛选无门诊记录或住院记录的体检人员的体检报告数据中的正样本,扩大正样本训练集,再次将患所述特定疾病的人群和未患所述特定疾病的人群进行区分;
[0014]S5、对于扩大后且特征指标确定的训练集数据,采用最优指标递减的方法进行建模,再进行模型融合,得到所述疾病风险等级预测模型。
[0015]本专利技术中,对于确定指标的训练集数据,本专利技术中采用最优指标递减的方法进行建模。最优指标递减是指使用全量指标建模后,保存模型,删除重要性最强的指标,重新训练模型,以此类推,直至模型的效果降至设定阈值以下。其优势在于减弱强指标对模型的影响,增加模型的鲁棒性和泛化能力。
[0016]所述疾病风险等级预测模型可以用于预测多种疾病,例如冠心病、中风、脑出血、脑梗塞、脑卒中、胃癌等。
[0017]作为本专利技术优选的技术方案,所述数据集包括个人信息数据、检验类数据和检查类数据。
[0018]所述个人信息数据包括体征数据、既往史、家族史或手术史数据。
[0019]所述检验类数据包括化验数据,比如:血常规、尿常规、血脂等数据。
[0020]所述检查类数据为文本描述数据,包括:X光、CT、核磁、心电图、腹部彩超、病理等检验类的结论数据。
[0021]作为本专利技术优选的技术方案,步骤S2所述填充的方法包括:
[0022]对于个人身形指标(如身高、体重等)使用本人近年的均值进行填充,或使用同年龄同性别的人的均值进行填充;
[0023]对于其他除缺失个人身形外的其他指标采用同年龄同性别的人的均值进行填充、采用差值法填充或采用机器学习方法学习进行填充。
[0024]作为本专利技术优选的技术方案,步骤S3中获取所述特定疾病的重要特征指标的方法包括:
[0025]采用xgboost机器学习方法进行学习,基于特征递归消除和/或遗传算法,筛选获得所述特征指标;
[0026]步骤S3获取所述特定疾病的重要特征指标后还包括获取衍生特征的步骤;
[0027]所述衍生特征包括对单一的所述特征指标进行平方、开方、取指数或指数幂运算,或者对至少两个所述特征指标进行加减乘除运算。
[0028]作为本专利技术优选的技术方案,步骤S3中获取所述特定疾病的重要特征指标后还包
括发现异常样本和清除异常样本的步骤;
[0029]所述发现异常样本的方法包括:针对患所述特定疾病的人群和未患所述特定疾病的人群,对其结构化数据进行学习,采用至少两种机器学习方法进行建模,对至少两种模型进行融合,并使用融合后的模型预测对应体检人员的所述特定疾病风险等级,比较所述预测后的结果,筛选得到异常样本。
[0030]所述清除异常样本的方法包括:将所述异常样本中影响重要特征指标的数据进行标记或修改,或者,直接将所述异常样本删除。
[0031]本专利技术所述方法中会对异常样本中影响特征指标的数据进行标记或修改,或者直接将所述异常样本删除。清除异常样本会根据实际情况进行调整,使其不影响模型构建的准确度。
[0032]作为本专利技术优选的技术方案,步骤S5中所述模型融合的方法包括:
[0033]以全量指标建模的模型为model_0,去除最强重要性的指标后,建模的模型为model_1,以此类推,得到model_0,model_1,...,model_n共n+1个模型,使用线性机器学习模型对模型进行建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种疾病风险等级预测模型的构建方法,其特征在于,所述构建方法包括:S1、获取有门诊记录或住院记录的体检人员的体检报告数据作为数据集,对所述数据集中患某一特定疾病的人群和未患所述特定疾病的人群进行划分;S2、将所述数据集中的非结构化的多元数据转化为应用级结构化数据,并对所得应用级结构化数据进行填充;S3、以填充后的数据为训练集,采用机器学习方法进行学习,筛选并获取所述特定疾病的重要特征指标;S4、以所述有门诊记录或住院记录的体检人员的体检报告数据划分成的正负样本集训练模型,而后,筛选无门诊记录或住院记录的体检人员的体检报告数据中的正样本,扩大正样本训练集,再次将患所述特定疾病的人群和未患所述特定疾病的人群进行区分;S5、对于扩大后且所述重要特征指标确定的训练集数据,采用最优指标递减的方法进行建模,再进行模型融合,得到所述疾病风险等级预测模型。2.根据权利要求1所述的构建方法,其特征在于,步骤S1所述数据集包括个人信息数据、检验类数据和检查类数据;所述个人信息数据包括体征数据、既往史、家族史或手术史数据;所述检验类数据包括化验数据;所述检查类数据为文本描述数据,包括心电图数据和/或双侧颈动脉彩超结论数据。3.根据权利要求1所述的构建方法,其特征在于,步骤S2所述填充的方法包括:对于个人身形指标使用本人近年的均值进行填充,或使用同年龄同性别的人的均值进行填充;对于其他缺失的、除个人身形外的指标采用同年龄同性别的人的均值进行填充、采用差值法填充或采用机器学习方法学习进行填充。4.根据权利要求3所述的构建方法,其特征在于,步骤S3中获取所述特定疾病的重要特征指标的方法包括:采用xgboost机器学习方法进行学习,基于特征递归消除和/或遗传算法,筛选获得所述特征指标;步骤S3获取所述特定疾病的重要特征指标后还包括获取衍生特征的步骤;所述衍生特征包括对单一的所述特征指标进行平方、开方、取指数或指数幂运算,或者对至少两个所述特征指标进行加减乘除运算。5.根据权利要求1所述的构建方法,其特征在于,步骤S3中获取所述特定疾病的重要特征指标后还包括发现异常样本和清除异常样本的步骤;所述发现异常样本的方法包括:针对患所述特定疾病的人群和未患所述特定疾病的人群,对其结构化数据进行学习,...

【专利技术属性】
技术研发人员:乔利娜张瑞楠林晓娴常灵逸李博阳煜东李培秀李继光
申请(专利权)人:宝石花医疗信息科技成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1