用于ICD编码的改进型BERT模型构建方法及ICD编码方法技术

技术编号:39241785 阅读:9 留言:0更新日期:2023-10-30 11:54
本发明专利技术公开了一种用于ICD编码的改进型BERT模型构建方法及ICD编码方法;模型构建步骤为:SA1:从病案数据库抽取病案信息得到初始训练数据;SA2:数据处理得到编码模型训练数据;SB1:基于病案数据库病人病案或者电子病案,采用C

【技术实现步骤摘要】
用于ICD编码的改进型BERT模型构建方法及ICD编码方法


[0001]本专利技术属于病案编码
,具体涉及一种用于ICD编码的改进型BERT模型构建方法及ICD编码方法。

技术介绍

[0002]针对智能ICD编码场景下(ICD:国际疾病分类international Classification of diseases是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示),当编码人员查看电子病历进行分析时,首先会检查电子病案中病人的各种信息结果给出多个编码结果,然不是只通过出院诊断和手术报告名称。但是想利用各类信息,就需要将先验医学知识直接应用于电子病案的编码中,这是一个是极其困难的,主要存在以下困难点:
[0003]1)医学知识具有随意性或异质性:一些诊断可能与一些检查报告结果中一些具体指标相关,而一些诊断是与既往病史有关,即诊断过程。
[0004]2)对编码存在参考价值的知识是零散复杂的,很难用明确的逻辑去总结成规律;
[0005]基于上述缺陷,有技术人员提出采用分类模型(例如BERT模型)进行智能编码,然后随着训练发现,icd编码的数据是极度不平衡的,正对那些罕见的分类,模型得不到足够的数据,很难训练出泛化能力的效果很好的结果。并且编码是需要考虑病历前后文关系,通过分析、挖掘、思考后得到的,那么即使通过大量的数据进行训练还是无法得到可以满足要求的模型,其输出编码准确性与编码员编码之前仍存在较大差距。
[0006]因此,将离散的任意医疗规则转化为对模型有增强效果的知识库是一个急需改进应用的问题。

技术实现思路

[0007]医学相关常识和医学规则在智能医疗领域起着重要作用,但是如何将这些先验的医学知识和规则嵌入到模型中,指导模型特定任务的调优是个棘手的问题。针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种用于ICD编码的改进型BERT模型构建方法及ICD编码方法,对BERT模型基于医疗知识领域进行适应性改进,将不同类型的医疗先验知识融合入深度模型,提高模型的可行性和编码准确度。
[0008]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0009]一种用于ICD编码的改进型BERT模型构建方法,其特征在于:按照以下步骤进行:
[0010]SA1:从病案数据库抽取病案信息得到初始训练数据;
[0011]SA2:对初始训练数据进行数据处理,得到编码模型训练数据;
[0012]SB1:基于病案数据库病人病案或者电子病案,采用C

TF

IDF技术挖掘病案关键词,并结合病人病案内容设定bert模型预训练任务,构建医疗领域的预训练BERT模型;
[0013]S2:将步骤SA2中获取到的编码模型训练数据加载到步骤SB1得到的预训练BERT模型中,并引入先验医学知识编码的期望分布,设置约束特征,通过正则化方法进行训练,得到改进型BERT模型。
[0014]通过上述方案,成功地将离散的先验医学知识进行分类,正对不同类型的先验知识应用不同的技术,将其融入到bert深度编码预测模型中,提供了足够的灵活性来将任意先验知识源作为特征,所以该方法为组合任意的先验知识参与到神经网络的训练过程中。并且训练的目标函数具有可微性,更方便与深度网络模型融合;它能够将不同类型的医疗先验知识融合入深度模型,指导深度模型的有偏向的训练优化,并能够区分不同医疗先验知识对ICD编码模型预测的重要性。
[0015]进一步的,步骤SA1中所述病案信息至少包括病案中出院记录的诊断名称、手术记录的手术名称、病人基本信息、病人特征属性以及ICD编码;病人特征属性包括且不仅限于检测指标异常项和现病史项。
[0016]采用上述方案,结合了不同的病人特征,作为输入来进行结合编码,对编码功能有很好的解释功能,提高编码精准度。
[0017]再进一步的,步骤SA2中数据处理的内容为:
[0018]结合文本序列化表将出院记录的诊断名称、手术记录的手术名称进行文本字符序列化;
[0019]t={t1,t2…
,t
T
};
[0020]结合病人特征编码表将病人特征属性进行向量化;
[0021]X={x1,x2…
,x
k
},其中k表示k个病人特征。
[0022]采用上述方案,经病案进行数字化转换,以融合将文字数值的输入转化成模型所需的数字输入,来进行模型训练。
[0023]再进一步的技术方案,步骤SB1的具体步骤为:
[0024]SB11、从病案数据库病人病案中,筛选包括adrg(核心疾病诊断相关组)分组信息的病案;对adrg分组信息中前M位相同的分成一组,得到N组分类病案;M、N为正整数;
[0025]SB12、对N组分类病案中任意选择一个病案文本,并获取病案关键词,并对病案序列和向量化;
[0026]病案关键词获取方法:采用C

TF

IDF加权技术得到a个病案关键词;
[0027]SB13、基于病案关键词,根据知识图谱对病案设定至少一个预训练任务来构建预训练的训练数据集:
[0028]SB14、基于预训练的训练数据集,基于病案数据库病人病案构建医学领域的预训练bert模型。
[0029]其中,C

TF

IDF中“C”表示adrg的分组;“TF

IDF”是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
[0030]采用上述技术方案,采用C

TF

IDF加权技术对病案关键词进行提取,并结合知识图谱对病案设置预训练任务,以减小病案和模型之间的差异。
[0031]再进一步的技术方案,步骤SB13预训练任务包括基于知识图谱的病案关键词替换任务、病案文本前向后文关联任务;
[0032]其中,所述病案关键词替换任务运用于未知的病案数据库的病人病案文本和已知电子病案;
[0033]所述病案关键词替换任务的具体操作为:
[0034]确定病案文本中所有病案关键词以及所有病案关键词出现的个数、每个病案关键词的频次、位置;
[0035]获取所有病案关键词在知识图谱中的解释内容;
[0036]按照病案关键词出现的先后顺序选择病案关键词,并锁定该病案关键词在病案文本中首次出现的位置;
[0037]对首次出现的病案关键词内容使用特殊字符[MASK]进行替换;
[0038]结合该病案关键词在知识图谱中的解释,将该特殊字符[MASK]采用解释内容进行替换;该病案文本中后续出现的病案关键词保持不变;
[0039]直至将所有病案关键词替换完成;
[0040]其中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于ICD编码的改进型BERT模型构建方法,其特征在于:按照以下步骤进行:SA1:从病案数据库抽取病案信息得到初始训练数据;SA2:对初始训练数据进行数据处理,得到编码模型训练数据;SB1:基于病案数据库病人病案或者电子病案,采用C

TF

IDF技术挖掘病案关键词,并结合病人病案内容设定bert模型预训练任务,构建医疗领域的预训练BERT模型;S2:将步骤SA2中获取到的编码模型训练数据加载到步骤SB1得到的预训练BERT模型中,并引入先验医学知识编码的期望分布,设置约束特征,通过正则化方法进行训练,得到改进型BERT模型。2.根据权利要求1所述的用于ICD编码的改进型BERT模型构建方法,其特征在于:步骤SA1中所述病案信息至少包括病案中出院记录的诊断名称、手术记录的手术名称、病人基本信息、病人特征属性以及ICD编码;病人特征属性包括且不仅限于检测指标异常项和现病史项。3.根据权利要求2所述的用于ICD编码的改进型BERT模型构建方法,其特征在于:步骤SA2中数据处理的内容为:结合文本序列化表将出院记录的诊断名称、手术记录的手术名称进行文本字符序列化;t={t1,t2…
,t
T
};结合病人特征编码表将病人特征属性进行向量化;X={x1,x2…
,x
k
},其中k表示k个病人特征。4.根据权利要求1所述的用于ICD编码的改进型BERT模型构建方法,其特征在于步骤SB1的具体步骤为:SB11、从病案数据库病人病案中,筛选包括adrg(核心疾病诊断相关组)分组信息的病案;对adrg分组信息中前M位相同的分成一组,得到N组分类病案;M、N为正整数;SB12、对N组分类病案中任意选择一个病案文本,并获取病案关键词,并对病案序列和向量化;病案关键词获取方法:采用C

TF

IDF加权技术得到a个病案关键词;SB13、基于病案关键词,根据知识图谱对病案设定至少一个预训练任务来构建预训练的训练数据集:SB14、基于预训练的训练数据集,基于病案数据库病人病案构建医学领域的预训练bert模型。5.根据权利要求4所述的用于ICD编码的改进型BERT模型构建方法,其特征在于:步骤SB13预训练任务包括基于知识图谱的病案关键词替换任务、病案文本前向后文关联任务;其中,所述病案关键词替换任务运用于未知的病案数据库的病人病案文本和已知电子病案;所述病案关键词替换任务的具体操作为:确定病案文本中所有病案关键词以及所有病案关键词出现的个数、每个病案关键词的频次、位置;获取所有病案关键词在知识图谱中的解释内容;
按照病案关键词出现的先后顺序选择病案关键词,并锁定该病案关键词在病案文本中首次出现的位置;对首次出现的病案关键词内容使用特殊字符[MASK]进行替换;结合该病案关键词在知识图谱中的解释,将该特殊字符[MASK]采用解释内容进行替换;该病案文本中后续出现的病案关键词保持不变;直至将所有病案关键词替换完成;其中,所述病案文本前向后文关联任务运用于已知电子病案;所述病案文本前向后文关联任务的具体操作为:确定病案文本中所有病案关键词以及所有病案关键词出现的个数、每个病...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:麦博南京智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1