一种基于知识库的可解释性医疗数据结构化方法和系统技术方案

技术编号：35878711 阅读：24 留言：0更新日期：2022-12-07 11:17

本发明专利技术属于医学数据处理技术领域，具体涉及一种基于知识库的可解释性医疗数据结构化方法和系统。本发明专利技术的方法包括如下步骤：输入待结构化医疗文本；通过医疗知识库指导生成正则式；利用知识抽取模型，采用所述正则式对所述待结构化医疗文本进行结构化处理；输出结构化处理的结果。本发明专利技术还提供用于实现上述方法的系统。本发明专利技术针对医疗文本数据实现了可解释可推理、鲁棒性强、可适配不同类别文本的结构化技术方案，具有很好的应用前景。具有很好的应用前景。具有很好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识库的可解释性医疗数据结构化方法和系统

[0001]本专利技术属于医学数据处理
，具体涉及一种基于知识库的可解释性医疗数据结构化方法和系统。

技术介绍

[0002]医疗数据结构化是指利用自然语言处理（Natural Language Processing，NLP）等技术方法将医疗领域自由描述的自然语言文本数据（如入院病历、检查报告、病程记录等）转化为可检索、可分析、可计算的结构化医疗数据，主要针对具有医学意义的实体及实体属性、实体关系信息等进行解析和抽取，是实现疾病智能辅助诊疗的基础。
[0003]该领域的技术发展主要经历了“规则法——机器学习——深度学习”三个发展阶段，目前常用的医疗数据结构化技术主要是采用“预训练
‑
微调”范式对超大参数量预训练语言模型（Pretrained Language Model，PLM）在特定语料中进行调优，从而适配下游特定领域的医疗文本结构化任务。当前Google、百度等基于自家开发的超大规模语言模型如BERT、ERNIE等构建了医学数据结构化接口、工具和系统。
[0004]然而，现有技术方法无法针对下游不同类型（如超声检查报告、病程记录等）或病种（如肝癌、乳腺癌、肾脏病等）的语料进行动态调整，同一套预训练模型无法对特定领域语料形成准确的语义表征，造成结构化处理结果偏差较大。此外，深度神经网络模型对于标注数据的数量及质量要求较高，对于数量较少（如标注数量较少的实体或关系类型）或者标注质量较差（如错标、漏标）的数据无法学习到准确的语义表征...

【技术保护点】

【技术特征摘要】
1.一种基于知识库的可解释性医疗数据结构化方法，其特征在于，包括如下步骤：步骤1，输入待结构化医疗文本；步骤2，通过医疗知识库指导生成正则式；步骤3，利用知识抽取模型，采用所述正则式对所述待结构化医疗文本进行结构化处理；步骤4，输出结构化处理的结果。2.按照权利要求1所述的医疗数据结构化方法，其特征在于：所述步骤3还包括：对所述正则式或所述结构化处理的结果进行人工校正；采用校正后的正则式对对所述待结构化医疗文本进行结构化处理，并迭代至输出准确的结构化结果；将校正后的正则式更新至所述医疗知识库中。3.按照权利要求1所述的医疗数据结构化方法，其特征在于：所述医疗知识库基于对不同病种和不同类型的大规模医疗文本数据进行分析构建得到，所述医疗知识库包括医学实体、实体属性、结构化正则式及属性规范化函数。4.按照权利要求1所述的医疗数据结构化方法，其特征在于：所述知识抽取模型包括实体描述抽取模块、属性字段抽取模块和属性字段规范化模块。5.按照权利要求4所述的医疗数据结构化方法，其特征在于：所述实体描述抽取模块执行如下步骤：步骤a1，接收待结构化医疗文本作为输入，从所述医疗知识库中获取当前实体正则层中的实体默认起始字符候选集及默认终止字符候选集；步骤a2，通过遍历起始字符候选集及终止字符候选集，将所有起始字符和终止字符一一配对，生成实体抽取正则；步骤a3，遍历完起始及终止字符集后，将所有正则抽取到的结果非空且字符数最少的作为最优结果，输出并传递到属性抽取模块。6.按照权利要求...

【专利技术属性】
技术研发人员：刘忠禹，曾筱茜，姚佳，应志野，付平，李春漾，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人