一种细粒度各场景通用的医疗文本结构化信息抽取方法技术

技术编号：37398846 阅读：21 留言：0更新日期：2023-04-30 09:27

本发明专利技术公开了一种细粒度各场景通用的医疗文本结构化信息抽取方法，涉及医疗信息结构化技术领域，用于解决现有医疗文本的类型及场景较为复杂，对结构化抽取造成障碍，并且结构化抽取的粒度比较粗的问题，本发明专利技术包括以下步骤：步骤一：获取待抽取的医疗文本数据，通过预处理模块对医疗文本数据进行预处理，剔除无效或脏数据；步骤二：对完成预处理后的医疗文本数据利用分类模块进行定义，本发明专利技术可针对不同场景的医疗文本数据进行结构化抽取，且不同场景所对应的不同类别分类较细，涵括范围广，可灵活适用于不同类型或场景的医疗文本数据进行抽取，也能解决目前主流的医疗文本结构化信息粒度粗，结构化不彻底，信息抽取缺失遗漏等问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种细粒度各场景通用的医疗文本结构化信息抽取方法

[0001]本专利技术涉及医疗信息结构化
，具体为一种细粒度各场景通用的医疗文本结构化信息抽取方法。

技术介绍

[0002]医疗文本结构化，主要是从各种医疗数据源数据等非结构化或者半结构化文本信息中抽取重要信息，得到结构化信息。医疗NLP文本结构化信息抽取技术方案与应用，可以说遍布医疗领域的方方面面，包括电子病历、患者信息检索、医疗支持决策、专病信息抽取等都离不开医疗信息的结构化。
[0003]疗大数据可以分为三类：结构化数据、半结构化数据和非结构化数据。其中，非结构化的临床文本是医疗活动过程中产生的一类重要的信息资源，也是医疗大数据的重要组成部分。
[0004]目前的医疗文本结构化信息抽取过程中，针对医疗文本的类型及场景较为复杂，对结构化抽取造成障碍，并且抽取的粒度比较粗，由于实体和关系schema类别的定义有限，难以将实体以及关系等的修饰、特殊属性、限制等细粒度信息进行精准的识别，医疗嵌套实体等识别也存在问题，因此，设计一种细粒度各场景通用的医疗文本...

【技术保护点】

【技术特征摘要】
1.一种细粒度各场景通用的医疗文本结构化信息抽取方法，包括以下步骤：步骤一：获取待抽取的医疗文本数据，通过预处理模块对医疗文本数据进行预处理，剔除无效或脏数据；步骤二：对完成预处理后的医疗文本数据利用分类模块进行定义，确定医疗文本数据的类型，并统计不同类型的医疗文本数据的数量，得到本次抽取的医疗文本数据所属类型分布状况；步骤三：将同一类型的医疗文本数据通过识别模块进行实体及关系识别，确定得到不同类型医疗文本数据的初级结构数据，并建立存储库对新的实体标签或关系录入至存储模块中；步骤四：通过优化模块对获得的初级结构数据进行校对，得到不合格的初级结构数据，并将不合格的初级结构数据进行优化，降低不合格的初级结构数据量；步骤五：将优化后的初级结构数据和步骤三得到的初级结构数据经由抽取预设规则配合抽取模块进行二次抽取，得到最终结构数据；步骤六：通过验证模块对得到的最终结构数据进行验证，判断数据的完整性和准确性。2.根据权利要求1所述的一种细粒度各场景通用的医疗文本结构化信息抽取方法，其特征在于，所述预处理模块对医疗文本数据进行预处理的具体操作步骤如下：预处理模块内分别设置有缺失值处理单元、离群点处理单元及不一致数据处理单元；缺失值处理单元获取待抽取医疗文本数据，并抓取数据中的缺失值，针对缺失值，通过基于缺失值的分布特性和重要率进行相对应的处理方法；当缺失率高于80%，覆盖率和重要率低于预设值时，则将缺失值的数据直接删除，即为缺失值删除；当缺失率小于95%时，且重要率低于预设值时，则根据数据的分布情况用基于统计量填充进行填充，即为缺失值的填充；利用离群点处理单元对处于特定分布区域范围之外的数据进行删除，处于特定分布区域范围之外的数据为离群点或异常值，也称此类数据为异常或噪声；通过不一致数据处理单元对与原始数据不一致或错误数据进行修正，可通过与原始数据进行比对和更正，同时利用知识工程工具对违反规则的数据进行检测。3.根据权利要求1所述的一种细粒度各场景通用的医疗文本结构化信息抽取方法，其特征在于，所述分类模块判断待抽取的医疗文本数据的类型的具体操作步骤如下：医疗文本数据类型由诊疗数据、研发数据、患者数据及支付或医保数据组成；根据医疗文本数据类型中的诊疗数据、研发数据、患者数据及支付或医保数据分别建立四个文本数据模板，并将经过预处理的医疗文本数据分别与四个文本数据模板进行比对，判断经过预处理的医疗文本数据跟四个文本数据模板重合度最高，以得到医疗文本数据的类型，医疗文本数据类型分为治疗数据类别、研发数据类别、患者数据类别及支付或医保数据类别；诊疗数据模板内包含电子病历数据模板、传统检测项目结果数据模板、新兴检测项目结果数据模板、医生用药选择数据模板及诊疗路径记录数据模板，并将经过预处理的医疗文本数据与诊疗数据模板内包含的若干个数据模板进行比对，得到诊疗数据模板重合度；研发数据模板内包含医院临床试验数据模板及科研机构最新科研进展数据模板，并将经过预处理的医疗文本数据与研发数据模板内包含的两种数据模板进行比对，得到研发数
据模板重合度；患者数据模板内包含可穿戴设备收集的体征类的健康管理数据模板及网络行为数据模板，并将经过预处理的医疗...

【专利技术属性】
技术研发人员：张海鹏，詹威，郭立超，
申请(专利权)人：熙牛医疗科技浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人