【技术实现步骤摘要】
用于ICD编码的改进型BERT模型构建方法及ICD编码方法
[0001]本专利技术属于病案编码
,具体涉及一种用于ICD编码的改进型BERT模型构建方法及ICD编码方法。
技术介绍
[0002]针对智能ICD编码场景下(ICD:国际疾病分类international Classification of diseases是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示),当编码人员查看电子病历进行分析时,首先会检查电子病案中病人的各种信息结果给出多个编码结果,然不是只通过出院诊断和手术报告名称。但是想利用各类信息,就需要将先验医学知识直接应用于电子病案的编码中,这是一个是极其困难的,主要存在以下困难点:
[0003]1)医学知识具有随意性或异质性:一些诊断可能与一些检查报告结果中一些具体指标相关,而一些诊断是与既往病史有关,即诊断过程。
[0004]2)对编码存在参考价值的知识是零散复杂的,很难用明确的逻辑去总结成规律;
[0005]基于上述缺陷,有技术人员提出采用分类模型(例如BERT模型)进行智能编码,然后随着训练发现,icd编码的数据是极度不平衡的,正对那些罕见的分类,模型得不到足够的数据,很难训练出泛化能力的效果很好的结果。并且编码是需要考虑病历前后文关系,通过分析、挖掘、思考后得到的,那么即使通过大量的数据进行训练还是无法得到可以满足要求的模型,其输出编码准确性与编码员编码之前仍存在较大差距。
[0006]因此,将离散的任意医疗规则转化为对模型有增强效果 ...
【技术保护点】
【技术特征摘要】
1.一种用于ICD编码的改进型BERT模型构建方法,其特征在于:按照以下步骤进行:SA1:从病案数据库抽取病案信息得到初始训练数据;SA2:对初始训练数据进行数据处理,得到编码模型训练数据;SB1:基于病案数据库病人病案或者电子病案,采用C
‑
TF
‑
IDF技术挖掘病案关键词,并结合病人病案内容设定bert模型预训练任务,构建医疗领域的预训练BERT模型;S2:将步骤SA2中获取到的编码模型训练数据加载到步骤SB1得到的预训练BERT模型中,并引入先验医学知识编码的期望分布,设置约束特征,通过正则化方法进行训练,得到改进型BERT模型。2.根据权利要求1所述的用于ICD编码的改进型BERT模型构建方法,其特征在于:步骤SA1中所述病案信息至少包括病案中出院记录的诊断名称、手术记录的手术名称、病人基本信息、病人特征属性以及ICD编码;病人特征属性包括且不仅限于检测指标异常项和现病史项。3.根据权利要求2所述的用于ICD编码的改进型BERT模型构建方法,其特征在于:步骤SA2中数据处理的内容为:结合文本序列化表将出院记录的诊断名称、手术记录的手术名称进行文本字符序列化;t={t1,t2…
,t
T
};结合病人特征编码表将病人特征属性进行向量化;X={x1,x2…
,x
k
},其中k表示k个病人特征。4.根据权利要求1所述的用于ICD编码的改进型BERT模型构建方法,其特征在于步骤SB1的具体步骤为:SB11、从病案数据库病人病案中,筛选包括adrg(核心疾病诊断相关组)分组信息的病案;对adrg分组信息中前M位相同的分成一组,得到N组分类病案;M、N为正整数;SB12、对N组分类病案中任意选择一个病案文本,并获取病案关键词,并对病案序列和向量化;病案关键词获取方法:采用C
‑
TF
‑
IDF加权技术得到a个病案关键词;SB13、基于病案关键词,根据知识图谱对病案设定至少一个预训练任务来构建预训练的训练数据集:SB14、基于预训练的训练数据集,基于病案数据库病人病案构建医学领域的预训练bert模型。5.根据权利要求4所述的用于ICD编码的改进型BERT模型构建方法,其特征在于:步骤SB13预训练任务包括基于知识图谱的病案关键词替换任务、病案文本前向后文关联任务;其中,所述病案关键词替换任务运用于未知的病案数据库的病人病案文本和已知电子病案;所述病案关键词替换任务的具体操作为:确定病案文本中所有病案关键词以及所有病案关键词出现的个数、每个病案关键词的频次、位置;获取所有病案关键词在知识图谱中的解释内容;
按照病案关键词出现的先后顺序选择病案关键词,并锁定该病案关键词在病案文本中首次出现的位置;对首次出现的病案关键词内容使用特殊字符[MASK]进行替换;结合该病案关键词在知识图谱中的解释,将该特殊字符[MASK]采用解释内容进行替换;该病案文本中后续出现的病案关键词保持不变;直至将所有病案关键词替换完成;其中,所述病案文本前向后文关联任务运用于已知电子病案;所述病案文本前向后文关联任务的具体操作为:确定病案文本中所有病案关键词以及所有病案关键词出现的个数、每个病...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:麦博南京智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。