当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于知识库的可解释性医疗数据结构化方法和系统技术方案

技术编号:35878711 阅读:24 留言:0更新日期:2022-12-07 11:17
本发明专利技术属于医学数据处理技术领域,具体涉及一种基于知识库的可解释性医疗数据结构化方法和系统。本发明专利技术的方法包括如下步骤:输入待结构化医疗文本;通过医疗知识库指导生成正则式;利用知识抽取模型,采用所述正则式对所述待结构化医疗文本进行结构化处理;输出结构化处理的结果。本发明专利技术还提供用于实现上述方法的系统。本发明专利技术针对医疗文本数据实现了可解释可推理、鲁棒性强、可适配不同类别文本的结构化技术方案,具有很好的应用前景。具有很好的应用前景。具有很好的应用前景。

【技术实现步骤摘要】
一种基于知识库的可解释性医疗数据结构化方法和系统


[0001]本专利技术属于医学数据处理
,具体涉及一种基于知识库的可解释性医疗数据结构化方法和系统。

技术介绍

[0002]医疗数据结构化是指利用自然语言处理(Natural Language Processing,NLP)等技术方法将医疗领域自由描述的自然语言文本数据(如入院病历、检查报告、病程记录等)转化为可检索、可分析、可计算的结构化医疗数据,主要针对具有医学意义的实体及实体属性、实体关系信息等进行解析和抽取,是实现疾病智能辅助诊疗的基础。
[0003]该领域的技术发展主要经历了“规则法——机器学习——深度学习”三个发展阶段,目前常用的医疗数据结构化技术主要是采用“预训练

微调”范式对超大参数量预训练语言模型(Pretrained Language Model,PLM)在特定语料中进行调优,从而适配下游特定领域的医疗文本结构化任务。当前Google、百度等基于自家开发的超大规模语言模型如BERT、ERNIE等构建了医学数据结构化接口、工具和系统。
[0004]然而,现有技术方法无法针对下游不同类型(如超声检查报告、病程记录等)或病种(如肝癌、乳腺癌、肾脏病等)的语料进行动态调整,同一套预训练模型无法对特定领域语料形成准确的语义表征,造成结构化处理结果偏差较大。此外,深度神经网络模型对于标注数据的数量及质量要求较高,对于数量较少(如标注数量较少的实体或关系类型)或者标注质量较差(如错标、漏标)的数据无法学习到准确的语义表征,从而造成下游预测阶段出现错误,降低结构化处理结果准确率。因此,本领域亟需一种适用于多种类型或病种的语料,且对训练的标注数据要求较低的医疗数据结构化方法和系统。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术提出一种基于知识库的可解释性医疗数据结构化方法和系统,目的在于实现一种适用于多种类型或病种的语料,对训练的标注数据要求较低且可解释性好的医疗数据结构化方法和系统。
[0006]一种基于知识库的可解释性医疗数据结构化方法,包括如下步骤:步骤1,输入待结构化医疗文本;步骤2,通过医疗知识库指导生成正则式;步骤3,利用知识抽取模型,采用所述正则式对所述待结构化医疗文本进行结构化处理;步骤4,输出结构化处理的结果。
[0007]优选的,所述步骤3还包括:对所述正则式或所述结构化处理的结果进行人工校正;采用校正后的正则式对对所述待结构化医疗文本进行结构化处理,并迭代至输出准确的结构化结果;将校正后的正则式更新至所述医疗知识库中。
[0008]优选的,所述医疗知识库基于对不同病种和不同类型的大规模医疗文本数据进行
分析构建得到,所述医疗知识库包括医学实体、实体属性、结构化正则式及属性规范化函数。
[0009]优选的,所述知识抽取模型包括实体描述抽取模块、属性字段抽取模块和属性字段规范化模块。
[0010]优选的,所述实体描述抽取模块执行如下步骤:步骤a1,接收待结构化医疗文本作为输入,从所述医疗知识库中获取当前实体正则层中的实体默认起始字符候选集及默认终止字符候选集;步骤a2,通过遍历起始字符候选集及终止字符候选集,将所有起始字符和终止字符一一配对,生成实体抽取正则;步骤a3,遍历完起始及终止字符集后,将所有正则抽取到的结果非空且字符数最少的作为最优结果,输出并传递到属性抽取模块。
[0011]优选的,所述属性字段抽取模块执行如下步骤:步骤b1,接收实体抽取最优结果作为输入,从知识库中获取当前属性默认抽取正则,并对输入进行处理,同时计算当前正则覆盖率,公式如下:覆盖率=抽取结果非空的文本数/输入文本总数
×
100%;步骤b2,对当前正则生成的字典树进行剪枝和合并,生成新的正则并计算覆盖率,直至覆盖率不再提升;步骤b3,以覆盖率最高的正则抽取结果作为最优结果,输出并传递到属性字段规范化模块。
[0012]优选的,所述属性字段规范化模块接收所述属性字段抽取模块的输出结果作为输入,从医疗知识库中获取当前属性规范化处理函数对输入的文本进行处理,输出最终属性规范化处理结果。
[0013]本专利技术还提供一种用于执行上述医疗数据结构化方法的系统,包括:输入模块,用于输入待结构化医疗文本;医疗知识库,用于存储病理知识图谱,指导生成正则式;知识抽取模型,用于采用所述正则式对所述待结构化医疗文本进行结构化处理;输出模块,用于输出结构化处理的结果。
[0014]优选的,还包括人机协同校正模块,用于对所述正则式或所述结构化处理的结果进行人工校正。
[0015]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现上述医疗数据结构化方法。
[0016]本专利技术的技术方案具有如下有益的效果:(1)针对现有技术的“预训练

微调”方法中模式固化,无法适配下游不同类型或病种语料的问题,本专利技术设计针对不同病种和医疗数据类型的医疗知识库作为基座,通过医疗知识库针对需要进行结构化抽取的医疗文本数据显式地生成融合知识的正则抽取方案,从而达到适配下游不同类型或病种语料并进行结构化的目的。此外,在进一步的优化方案中,抽取方案中的正则式由医生直接修改或者通过医生对数据进一步标注进行动态修正,进一步使得本专利技术的方法和系统适用于不同类型或病种的语料。
[0017](2)针对现有技术的“预训练

微调”方法中结构化性能对标注数据数量及质量的
强依赖问题,本专利技术设计的方法和系统并不需要大样本量的标注数据来进行训练,只依赖于医疗知识库作为构建知识抽取模型的先验条件,知识抽取模型中主要采用正则式作为抽取技术。此外,在优选的方案中,针对抽取错误的结构化结果,只需医生对正则式进行调整或者对小样本数据进行标注(例如对实体起始字符位置进行校正、对关系的头尾实体重新连接等),就能较为优秀地实现医疗文本数据的结构化抽取。并且,在此过程中通过提取医生标注过程中的医学知识,用于扩充或修正原有知识库,达到了对医生医学知识的充分利用。
[0018](3)针对现有技术的“预训练

微调”方法中可解释性差、灵活度不高的问题,本专利技术设计的方法和系统利用医疗知识库和正则模型作为主要的结构化技术,将结构化推理链路进行了显式表达,可解释性良好。此外,在优选的方案中,可以通过对结构化结果的确认人工对抽取模型进行干预和校正,达到人机协同进行医疗文本结构化的目的,灵活度高可操作性好。
[0019]总之,本专利技术针对医疗文本数据实现了可解释可推理、鲁棒性强、可适配不同类别文本的结构化,具有很好的应用前景。
[0020]显然,根据本专利技术的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本专利技术上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
[0021]以下通过实施例形式的具体实施方式,对本专利技术的上述内容再作进一步的详细说明。但不应将此理解为本专利技术上述主题的范围仅限本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识库的可解释性医疗数据结构化方法,其特征在于,包括如下步骤:步骤1,输入待结构化医疗文本;步骤2,通过医疗知识库指导生成正则式;步骤3,利用知识抽取模型,采用所述正则式对所述待结构化医疗文本进行结构化处理;步骤4,输出结构化处理的结果。2.按照权利要求1所述的医疗数据结构化方法,其特征在于:所述步骤3还包括:对所述正则式或所述结构化处理的结果进行人工校正;采用校正后的正则式对对所述待结构化医疗文本进行结构化处理,并迭代至输出准确的结构化结果;将校正后的正则式更新至所述医疗知识库中。3.按照权利要求1所述的医疗数据结构化方法,其特征在于:所述医疗知识库基于对不同病种和不同类型的大规模医疗文本数据进行分析构建得到,所述医疗知识库包括医学实体、实体属性、结构化正则式及属性规范化函数。4.按照权利要求1所述的医疗数据结构化方法,其特征在于:所述知识抽取模型包括实体描述抽取模块、属性字段抽取模块和属性字段规范化模块。5.按照权利要求4所述的医疗数据结构化方法,其特征在于:所述实体描述抽取模块执行如下步骤:步骤a1,接收待结构化医疗文本作为输入,从所述医疗知识库中获取当前实体正则层中的实体默认起始字符候选集及默认终止字符候选集;步骤a2,通过遍历起始字符候选集及终止字符候选集,将所有起始字符和终止字符一一配对,生成实体抽取正则;步骤a3,遍历完起始及终止字符集后,将所有正则抽取到的结果非空且字符数最少的作为最优结果,输出并传递到属性抽取模块。6.按照权利要求...

【专利技术属性】
技术研发人员:刘忠禹曾筱茜姚佳应志野付平李春漾
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1