医学临床过程无监督建模方法、计算机设备、存储介质技术

技术编号:36500621 阅读:12 留言:0更新日期:2023-02-01 15:22
本发明专利技术提供一种医学临床过程无监督建模方法及相应的计算机设备、计算机可读存储介质。所述医学临床过程无监督建模方法包括:预训练医学文本模型,具体包括:把每个人的医学数据中的所有的文本类数据导出成一个文本数据集;把所述文本数据集的数据中的文本部分提取出来,生成一个文本序列S;文本序列S中的每个文本元素进行语素切割;训练神经网络transformer,训练任务为遮盖预测。本发明专利技术提高模型在实际应用中的泛化能力,可以处理专家知识难以描述或者难以穷举的复杂临床组合,完全基于大数据和无监督学习,迭代速度快,无需大量专家介入,成本低,可以实现不同粒度的,量化的费用测算和风险控制。的费用测算和风险控制。的费用测算和风险控制。

【技术实现步骤摘要】
医学临床过程无监督建模方法、计算机设备、存储介质


[0001]本专利技术属于医疗保险和计算机领域,特别涉及一种医学临床过程无监督建模方法及相应的计算机设备、计算机可读存储介质。

技术介绍

[0002]近几年来,随着电子病历和社保自动支付的广泛普及,国内积累了大量的医疗过程数据。与此同时由于人口平均寿命增加等各种因素,社会医疗保障的资金压力日益增大,商业险中的商业健康险比例也明显增加,无论是社保还是商保都对于医疗费用测算和控费有着迫切的需求。
[0003]目前的社保和商业健康险对于医疗费用的控制手段主要包括两种方法。
[0004]一种方法是针对个例提出的,比如某些病和药品器材的临床医学实施合理性,这种方法中,通过专家认定设定规则。但这种方法的缺点在于专家维护成本非常高,规则泛化性差,更新速度慢,针对一些复杂模糊情况难以做出合适的规则进行描述,难以给出量化指标。
[0005]另一种方法是针对过往医疗记录中的费用,使用传统统计学的方式进行费用测算来作为控费的标准,包括DRGs和DIP。DRGs和DIP基于过往数据的统计和专家经验,设定临床路径组合,并将临床路径组合分组归类,在组别基础之上进行历年数据统计,以此为根据确定临床费用标准。并且,这种方法还通过医院评级指标,综合考虑费用以及疗效之间的平衡,从费用结算端对医院运营进行优化。这种方法一定程度上解决了专家规则难以处理量化逻辑的问题,但是对于临床过程中的具体细节把控不足,只能从最后的费用结果中倒逼。

技术实现思路

[0006]针对上述问题,本专利技术提供一种医学临床过程无监督建模方法。
[0007]本专利技术提供的医学临床过程无监督建模方法,包括:
[0008]预训练医学文本模型,具体包括:
[0009]把每个人的医学数据中的所有的文本类数据导出成一个文本数据集;
[0010]把所述文本数据集的数据中的文本部分提取出来,生成一个文本序列S=(s1,s2,s3,s4,...,s
N1
),文本序列S中的文本元素s
j
为文本数据集中的文本,j为整数且1≤j≤N1,N1为整数,指所述文本数据集中的文本总个数;
[0011]使用分词器对所述文本序列S中的每个文本元素进行语素切割,获得语素序列TS=([ssp
1,1
,...,ssp
1,J1
],...,[ssp
j,1
,...,ssp
j,Jj
],...,[ssp
N1,1
,...,ssp
N1,JN1
]),其中,[ssp
1,1
,...,ssp
1,J1
]为对文本元素s1进行语素切割后得到的语素,...,[ssp
j,1
,...,ssp
j,Jj
]为对文本元素s
j
进行语素切割后得到的语素,...,[ssp
N1,1
,...,ssp
N1,JN1
]为对文本元素s
N1
进行语素切割后得到的语素,J1为对文本元素s1进行语素切割后得到的语素个数,...,Jj为对文本元素s
j
进行语素切割后得到的语素个数,...,JN1为对文本元素s
N1
进行语素切割后得到的语素个数,J1,...,Jj,...,JN1均为不小于1的整数;
[0012]训练神经网络transformer,训练任务为遮盖预测。
[0013]进一步,
[0014]所述训练神经网络transformer中,需注意:
[0015]对所述语素序列TS中的语素进行随机遮盖,生成遮盖语素序列TS
mask
=([ssp
1,1
,...,ssp
1,J1
],...,[MASK,...MASK],...,[ssp
N1,1
,...,ssp
N1,JN1
]),其中MASK代表特殊的遮盖标识,对单独的文本元素s
j
进行遮盖;
[0016]随机遮盖后把TS
mask
中的语素拉平成为一个大序列TS
mask1
,TS
mask1
=(ssp
1,1
,...,ssp
1,J1
,...,MASK,...MASK,...,ssp
N1,1
,...,ssp
N1,JN1
),并将所述大序列TS
mask1
作为所述神经网络transformer的输入;
[0017]所述神经网络transformer的训练目标为预测被遮盖的部分的真实值,任务类型为分类任务,使用的loss为MCE(multi

class cross

entropy error)。
[0018]进一步,还包括:
[0019]所述语素切割采用sentence piece tokenizer算法,根据语料集中字符串共同出现的频率判断是否需要进行切割。
[0020]进一步,还包括:
[0021]将所述医学数据按照个人为单位,从上到下分层为四层结构的数据:第一层为个人信息层,第二层为就诊信息层,第三层为医疗大项层,第四层为医疗明细层,所述四层结构的数据中,前面层次的数据为后面层次数据的高层级数据;
[0022]所述个人信息层包括人口学信息,既性别,身高,体重,病史,不良嗜好史;
[0023]所述就诊信息层包括本次就诊的出入院日期,住院天数,诊断出的疾病名称,就诊时的年龄,就诊总费用,医院名称;
[0024]所述医疗大项层包括大项的名称,即包括西药费,手术费,检查费和大项的金额;
[0025]医疗明细层包括明细的名称和费用。
[0026]进一步,还包括:
[0027]所述四层结构的数据中的每一层数据均包括时序信息、非时序信息、金额信息和无金额信息,
[0028]其中,
[0029]所述时序信息包括就诊时间和就诊时年龄;
[0030]所述非时序信息包括性别和工作信息;
[0031]所述金额信息包括费用明细中的费用项目和具体费用;
[0032]所述无金额信息包括患者所诊断出的疾病名称。
[0033]进一步,还包括:
[0034]把所述四层结构的数据中每一层的数据内容区分为文本类型数据,时间类型数据,数值类型数据即金额信息后进行如下处理:
[0035]对所述文本类型数据进行所述语素切割;
[0036]对所述时间类型数据采用相对时间编码,即换算为相对时间,并记录时间戳之间的日期差值;
[0037]对所述金额信息取对数来缓解数据的不稳定性,同时对于小于1元的金额取1处理,既log为0。
[0038]进一步,还包括:...

【技术保护点】

【技术特征摘要】
1.医学临床过程无监督建模方法,其特征在于,包括:预训练医学文本模型,具体包括:把每个人的医学数据中的所有的文本类数据导出成一个文本数据集;把所述文本数据集的数据中的文本部分提取出来,生成一个文本序列S=(s1,s2,s3,s4,...,s
N1
),文本序列S中的文本元素s
j
为文本数据集中的文本,j为整数且1≤j≤N1,N1为整数,指所述文本数据集中的文本总个数;使用分词器对所述文本序列S中的每个文本元素进行语素切割,获得语素序列TS=([ssp
1,1
,...,ssp
1,J1
],...,[ssp
j,1
,...,ssp
j,Jj
],...,[ssp
N1,1
,...,ssp
N1,JN1
]),其中,[ssp
1,1
,...,ssp
1,J1
]为对文本元素s1进行语素切割后得到的语素,...,[ssp
j,1
,...,ssp
j,Jj
]为对文本元素s
j
进行语素切割后得到的语素,...,[ssp
N1,1
,...,ssp
N1,JN1
]为对文本元素s
N1
进行语素切割后得到的语素,J1为对文本元素s1进行语素切割后得到的语素个数,...,Jj为对文本元素s
j
进行语素切割后得到的语素个数,...,JN1为对文本元素s
N1
进行语素切割后得到的语素个数,J1,...,Jj,...,JN1均为不小于1的整数;训练神经网络transformer,训练任务为遮盖预测。2.根据权利要求1所述的医学临床过程无监督建模方法,其特征在于,所述训练神经网络transformer中,需注意:对所述语素序列TS中的语素进行随机遮盖,生成遮盖语素序列TS
mask
=([ssp
1,1
,...,ssp
1,J1
],...,[MASK,...MASK],...,[ssp
N1,1
,...,ssp
N1,JN1
]),其中MASK代表特殊的遮盖标识,对单独的文本元素s
j
进行遮盖;随机遮盖后把TS
mask
中的语素拉平成为一个大序列TS
mask1
,TS
mask1
=(ssp
1,1
,...,ssp
1,J1
,...,MASK,...MASK,...,ssp
N1,1
,...,ssp
N1,JN1
),并将所述大序列TS
mask1
作为所述神经网络transformer的输入;所述神经网络transformer的训练目标为预测被遮盖的部分的真实值,任务类型为分类任务,使用的loss为MCE(multi

class cross

【专利技术属性】
技术研发人员:刘戈杰郭志扬
申请(专利权)人:上海栈略数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1