一种海量医疗保险数据智能信息检索系统技术方案

技术编号:38438692 阅读:11 留言:0更新日期:2023-08-11 14:22
本发明专利技术涉及电子数字数据处理技术领域,具体涉及一种海量医疗保险数据智能信息检索系统,包括:根据保险数据中具有不同既往病例时,不同年龄和不同性别下保险数据对应数量之间的关系,获得保险数据对应的风险率和检索概率,根据检索概率的大小对保险数据进行编码压缩。本发明专利技术通过联系保险数据中不同特征的关系,提高了逻辑回归模型对保险数据的风险率评估结果的稳定性和准确性,并根据检索概率大小对保险数据进行编码压缩,避免高检索概率的保险数据编码过长的问题,极大提高了在数据检索过程中的效率和速度。过程中的效率和速度。过程中的效率和速度。

【技术实现步骤摘要】
一种海量医疗保险数据智能信息检索系统


[0001]本专利技术涉及电子数字数据处理
,具体涉及一种海量医疗保险数据智能信息检索系统。

技术介绍

[0002]随着社会的发展和人口老龄化趋势的加剧,医疗保险行业扮演着越来越重要的角色,医疗保险的核心是数据,而医疗保险数据的处理和管理对于保险公司来说是一个非常重要的任务。然而,传统的数据管理方式已经难以满足对于庞大保险数据的高效处理和检索需求,海量保险数据处理需要大量的时间和资源,容易出现数据冗余、重复等问题,数据检索效率低下等问题。因此,需要一种新的智能化的海量医疗保险数据信息检索系统,能够利用机器学习算法分析、编码医疗保险数据,实现数据的压缩和结构化编码,同时提高数据检索效率和准确性,以满足医疗保险行业的需求。
[0003]目前,对于医疗保险信息进行检索时,采用现有的字符匹配技术,然而这种方法存在以下缺陷:1.存储空间浪费。在传统的关系数据库中,每一条数据都需要存储各个属性的值,存在大量冗余数据。2.检索效率低下。在数据量庞大的情况下,传统的字符串匹配和模糊查询带来的效率问题将会越来越明显。

技术实现思路

[0004]本专利技术提供一种海量医疗保险数据智能信息检索系统,以解决现有的问题。
[0005]本专利技术的一种海量医疗保险数据智能信息检索系统采用如下技术方案:本专利技术提供了一种海量医疗保险数据智能信息检索系统,该系统包括以下模块:数据准备模块:采集医疗保险信息数据库中的保险数据,获得第一数据集和第二数据集;数据划分模块:用于将第一数据集进行划分,获得训练集和验证集;概率分析模块:用于获取第一数据集中若干个既往病例,根据具有任意既往病例下不同年龄的人数,获得既往病例与年龄之间的相关因子;结合相关因子获取既往病例与年龄之间的联系参数;进一步结合联系参数获得既往病例的特征参数;根据特征参数获得第二数据集中保险数据的风险率,结合风险率获得保险数据的检索概率;数据存储模块:根据检索概率的大小,获得首要编码数据,对首要编码数据进行编码压缩存储,进一步实现保险数据的快速检索。
[0006]进一步的,所述第一数据集和第二数据集,获取方法如下:将医疗保险数据库中所有保险数据形成的集合,记为保险数据集;将保险数据集中由已经赔付过的医疗保险信息所对应的保险数据形成的集合,记为第一数据集;将保险数据集中投保人正在使用的医疗保险所对应的所有数据形成的集合,记为第二数据集。
[0007]进一步的,所述训练集和验证集,获取方法如下:首先,利用K

means++算法,根据各个保险数据中对应投保人的年龄、性别以及既往病例三个维度之间的距离,对第一数据集中的所有保险数据进行聚类,获得多个聚类簇;然后,对所有聚类簇利用randomshuffling算法进行置乱;最后,每个聚类簇按照预设比例进行划分,分别得到训练集和验证集。
[0008]进一步的,所述概率分析模块,包括单元如下:多元数据集单元:提取训练集中不同保险数据对应投保人的既往病例的病例名称,获得由所有既往病例形成的集合,记为多元数据集;联系参数单元:用于根据既往病例下不同年龄的人数与所有既往病例下人数的平均值之间的差异,获得既往病例与年龄之间的相关因子;获取不同年龄下具有任意既往病例时的赔付概率,结合不同年龄区间下具有任意既往病例的人数之间的差异以及相关因子,获得既往病例与年龄之间的联系参数;特征参数单元:获取不同性别下的赔付概率,结合联系参数获得既往病例的特征参数;风险率单元:将训练集中所有既往病例的特征参数作为自变量,进行逻辑回归模型训练,并利用验证集中所有既往病例的特征参数,对训练的逻辑回归模型进行优化,获得用于保险数据的风险率评估的逻辑回归模型;获取第二数据集中所有既往病例的特征参数,并作为逻辑回归模型的输入,输出为各个既往病例对应保险数据的风险率;检索概率单元:获取保险数据被检索的时间和医疗保险信息数据库的更新时间,结合风险率,获得第二数据集中保险数据的检索概率。
[0009]进一步的,所述相关因子,获取方法如下:其中,表示第个既往病例与年龄之间的相关因子;表示训练集中年龄大小为的投保人,具有第个既往病例的总人数,其中,为训练集中所有保险数据对应投保人的年龄区间;表示训练集中保险数据对应投保人的最大年龄;表示所有既往病例下人数的平均值;表示双曲正切函数。
[0010]进一步的,所述联系参数,获取方法如下:首先,获取第一数据集中各个年龄和不同性别下,存在任意既往病例而进行赔付的人数;然后,将第一数据集中在年龄区间和年龄区间中,存在第个既往病例而进行赔付的总人数,与具有第个既往病例的总人数之间的比值,记为赔付概率;最后,联系参数的具体获取方法为:
其中,表示第个既往病例与年龄之间的联系参数;表示训练集中年龄大小为的投保人,具有第个既往病例的总人数;表示训练集中保险数据对应投保人的最大年龄;表示第个既往病例在年龄区间内的赔付概率;表示第个既往病例在年龄区间的赔付概率;表示第个既往病例与年龄之间的相关因子。
[0011]进一步的,所述特征参数,获取方法如下:首先,在第一数据集中,分别获取存在任意既往病例时,男性和女性的赔付人数,将赔付人数与第一数据集中所有赔付人数的比值,分别记为男性赔付概率和女性赔付概率;然后,将1加男性赔付概率或女性赔付概率的结果,与联系参数之间的乘积结果,记为既往病例的特征参数。
[0012]进一步的,所述检索概率,获取方法如下:其中,表示第二数据集中第个保险数据的检索概率;表示第二数据集中第个保险数据的风险率;表示第二数据集中第个保险数据在被第次检索的时间;表示第二数据集中第个保险数据最后一次被检索的时间,表示最后一次医疗保险信息数据库的更新时间,表示自然常数。
[0013]进一步的,所述根据检索概率的大小,获得首要编码数据,对首要编码数据进行编码压缩存储,进一步实现保险数据的快速检索,包括的具体步骤如下:首先,对第二数据集中所有保险数据的检索概率进行线性归一化处理,获得归一化检索概率,根据经验预设检索概率阈值;然后,将归一化检索概率大于检索概率阈值的保险数据,记为首要编码数据;将归一化检索概率小于检索概率阈值的保险数据,记为非首要编码数据;利用字符统计方法获取所有首要编码数据中的重复字符,并对首要编码数据和重复字符进行变长编码中短码长编码;对非重复字符以及非首要编码数据利用变长编码中的长码长编码,获得所有保险数据对应的编码压缩数据;最后,将所有编码压缩数据存储在医疗保险信息数据库中,实现保险数据的快速检索。
[0014]本专利技术的技术方案的有益效果是:(1)相较于单一特征的机器学习算法,本专利技术通过联系保险数据中的不同特征之间的关系,进行特征的复合,使得利用机器学习分析保险数据的风险率时获得的结果更加的稳定,进行保险数据的风险率评估时更加准确,并且使得抗噪声干扰能力更强,对于异常数据的稳定程度更大。
[0015](2)利用不同保险数据的风险率,以及保险数据被检索的频率统计结果,获得保险数据的检索概率,根据检索概率的大小进行不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种海量医疗保险数据智能信息检索系统,其特征在于,该系统包括以下模块:数据准备模块:采集医疗保险信息数据库中的保险数据,获得第一数据集和第二数据集;数据划分模块:用于将第一数据集进行划分,获得训练集和验证集;概率分析模块:用于获取第一数据集中若干个既往病例,根据具有任意既往病例下不同年龄的人数,获得既往病例与年龄之间的相关因子;结合相关因子获取既往病例与年龄之间的联系参数;进一步结合联系参数获得既往病例的特征参数;根据特征参数获得第二数据集中保险数据的风险率,结合风险率获得保险数据的检索概率;数据存储模块:根据检索概率的大小,获得首要编码数据,对首要编码数据进行编码压缩存储,进一步实现保险数据的快速检索。2.根据权利要求1所述一种海量医疗保险数据智能信息检索系统,其特征在于,所述第一数据集和第二数据集,获取方法如下:将医疗保险数据库中所有保险数据形成的集合,记为保险数据集;将保险数据集中由已经赔付过的医疗保险信息所对应的保险数据形成的集合,记为第一数据集;将保险数据集中投保人正在使用的医疗保险所对应的所有数据形成的集合,记为第二数据集。3.根据权利要求1所述一种海量医疗保险数据智能信息检索系统,其特征在于,所述训练集和验证集,获取方法如下:首先,利用K

means++算法,根据各个保险数据中对应投保人的年龄、性别以及既往病例三个维度之间的距离,对第一数据集中的所有保险数据进行聚类,获得多个聚类簇;然后,对所有聚类簇利用randomshuffling算法进行置乱;最后,每个聚类簇按照预设比例进行划分,分别得到训练集和验证集。4.根据权利要求1所述一种海量医疗保险数据智能信息检索系统,其特征在于,所述概率分析模块,包括单元如下:多元数据集单元:提取训练集中不同保险数据对应投保人的既往病例的病例名称,获得由所有既往病例形成的集合,记为多元数据集;联系参数单元:用于根据既往病例下不同年龄的人数与所有既往病例下人数的平均值之间的差异,获得既往病例与年龄之间的相关因子;获取不同年龄下具有任意既往病例时的赔付概率,结合不同年龄区间下具有任意既往病例的人数之间的差异以及相关因子,获得既往病例与年龄之间的联系参数;特征参数单元:获取不同性别下的赔付概率,结合联系参数获得既往病例的特征参数;风险率单元:将训练集中所有既往病例的特征参数作为自变量,进行逻辑回归模型训练,并利用验证集中所有既往病例的特征参数,对训练的逻辑回归模型进行优化,获得用于保险数据的风险率评估的逻辑回归模型;获取第二数据集中所有既往病例的特征参数,并作为逻辑回归模型的输入,输出为各个既往病例对应保险数据的风险率;检索概率单元:获取保险数据被检索的时间和医疗保险信息数据库的更新时间,结合风险率,获得第二数据集中保险数据的检索概率。5.根据权利要求...

【专利技术属性】
技术研发人员:刘利锋
申请(专利权)人:北京环球医疗救援有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1