【技术实现步骤摘要】
医学临床过程无监督建模方法、计算机设备、存储介质
[0001]本专利技术属于医疗保险和计算机领域,特别涉及一种医学临床过程无监督建模方法及相应的计算机设备、计算机可读存储介质。
技术介绍
[0002]近几年来,随着电子病历和社保自动支付的广泛普及,国内积累了大量的医疗过程数据。与此同时由于人口平均寿命增加等各种因素,社会医疗保障的资金压力日益增大,商业险中的商业健康险比例也明显增加,无论是社保还是商保都对于医疗费用测算和控费有着迫切的需求。
[0003]目前的社保和商业健康险对于医疗费用的控制手段主要包括两种方法。
[0004]一种方法是针对个例提出的,比如某些病和药品器材的临床医学实施合理性,这种方法中,通过专家认定设定规则。但这种方法的缺点在于专家维护成本非常高,规则泛化性差,更新速度慢,针对一些复杂模糊情况难以做出合适的规则进行描述,难以给出量化指标。
[0005]另一种方法是针对过往医疗记录中的费用,使用传统统计学的方式进行费用测算来作为控费的标准,包括DRGs和DIP。DRGs和DIP基于过往数据的统计和专家经验,设定临床路径组合,并将临床路径组合分组归类,在组别基础之上进行历年数据统计,以此为根据确定临床费用标准。并且,这种方法还通过医院评级指标,综合考虑费用以及疗效之间的平衡,从费用结算端对医院运营进行优化。这种方法一定程度上解决了专家规则难以处理量化逻辑的问题,但是对于临床过程中的具体细节把控不足,只能从最后的费用结果中倒逼。
技术实现思路
[0006]针对上述
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.医学临床过程无监督建模方法,其特征在于,包括:预训练医学文本模型,具体包括:把每个人的医学数据中的所有的文本类数据导出成一个文本数据集;把所述文本数据集的数据中的文本部分提取出来,生成一个文本序列S=(s1,s2,s3,s4,...,s
N1
),文本序列S中的文本元素s
j
为文本数据集中的文本,j为整数且1≤j≤N1,N1为整数,指所述文本数据集中的文本总个数;使用分词器对所述文本序列S中的每个文本元素进行语素切割,获得语素序列TS=([ssp
1,1
,...,ssp
1,J1
],...,[ssp
j,1
,...,ssp
j,Jj
],...,[ssp
N1,1
,...,ssp
N1,JN1
]),其中,[ssp
1,1
,...,ssp
1,J1
]为对文本元素s1进行语素切割后得到的语素,...,[ssp
j,1
,...,ssp
j,Jj
]为对文本元素s
j
进行语素切割后得到的语素,...,[ssp
N1,1
,...,ssp
N1,JN1
]为对文本元素s
N1
进行语素切割后得到的语素,J1为对文本元素s1进行语素切割后得到的语素个数,...,Jj为对文本元素s
j
进行语素切割后得到的语素个数,...,JN1为对文本元素s
N1
进行语素切割后得到的语素个数,J1,...,Jj,...,JN1均为不小于1的整数;训练神经网络transformer,训练任务为遮盖预测。2.根据权利要求1所述的医学临床过程无监督建模方法,其特征在于,所述训练神经网络transformer中,需注意:对所述语素序列TS中的语素进行随机遮盖,生成遮盖语素序列TS
mask
=([ssp
1,1
,...,ssp
1,J1
],...,[MASK,...MASK],...,[ssp
N1,1
,...,ssp
N1,JN1
]),其中MASK代表特殊的遮盖标识,对单独的文本元素s
j
进行遮盖;随机遮盖后把TS
mask
中的语素拉平成为一个大序列TS
mask1
,TS
mask1
=(ssp
1,1
,...,ssp
1,J1
,...,MASK,...MASK,...,ssp
N1,1
,...,ssp
N1,JN1
),并将所述大序列TS
mask1
作为所述神经网络transformer的输入;所述神经网络transformer的训练目标为预测被遮盖的部分的真实值,任务类型为分类任务,使用的loss为MCE(multi
‑
class cross
技术研发人员:刘戈杰,郭志扬,
申请(专利权)人:上海栈略数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。