一种细粒度各场景通用的医疗文本结构化信息抽取方法技术

技术编号:37398846 阅读:10 留言:0更新日期:2023-04-30 09:27
本发明专利技术公开了一种细粒度各场景通用的医疗文本结构化信息抽取方法,涉及医疗信息结构化技术领域,用于解决现有医疗文本的类型及场景较为复杂,对结构化抽取造成障碍,并且结构化抽取的粒度比较粗的问题,本发明专利技术包括以下步骤:步骤一:获取待抽取的医疗文本数据,通过预处理模块对医疗文本数据进行预处理,剔除无效或脏数据;步骤二:对完成预处理后的医疗文本数据利用分类模块进行定义,本发明专利技术可针对不同场景的医疗文本数据进行结构化抽取,且不同场景所对应的不同类别分类较细,涵括范围广,可灵活适用于不同类型或场景的医疗文本数据进行抽取,也能解决目前主流的医疗文本结构化信息粒度粗,结构化不彻底,信息抽取缺失遗漏等问题。问题。问题。

【技术实现步骤摘要】
一种细粒度各场景通用的医疗文本结构化信息抽取方法


[0001]本专利技术涉及医疗信息结构化
,具体为一种细粒度各场景通用的医疗文本结构化信息抽取方法。

技术介绍

[0002]医疗文本结构化,主要是从各种医疗数据源数据等非结构化或者半结构化文本信息中抽取重要信息,得到结构化信息。医疗NLP文本结构化信息抽取技术方案与应用,可以说遍布医疗领域的方方面面,包括电子病历、患者信息检索、医疗支持决策、专病信息抽取等都离不开医疗信息的结构化。
[0003]疗大数据可以分为三类:结构化数据、半结构化数据和非结构化数据。其中,非结构化的临床文本是医疗活动过程中产生的一类重要的信息资源,也是医疗大数据的重要组成部分。
[0004]目前的医疗文本结构化信息抽取过程中,针对医疗文本的类型及场景较为复杂,对结构化抽取造成障碍,并且抽取的粒度比较粗,由于实体和关系schema类别的定义有限,难以将实体以及关系等的修饰、特殊属性、限制等细粒度信息进行精准的识别,医疗嵌套实体等识别也存在问题,因此,设计一种细粒度各场景通用的医疗文本结构化信息抽取方法。
[0005]为了解决上述缺陷,现提供一种技术方案。

技术实现思路

[0006]本专利技术的目的就在于为了解决现有医疗文本的类型及场景较为复杂,对结构化抽取造成障碍,并且结构化抽取的粒度比较粗的问题,而提出一种细粒度各场景通用的医疗文本结构化信息抽取方法。
[0007]本专利技术的目的可以通过以下技术方案实现:一种细粒度各场景通用的医疗文本结构化信息抽取方法,包括以下步骤:步骤一:获取待抽取的医疗文本数据,通过预处理模块对医疗文本数据进行预处理,剔除无效或脏数据;步骤二:对完成预处理后的医疗文本数据利用分类模块进行定义,确定医疗文本数据的类型,并统计不同类型的医疗文本数据的数量,得到本次抽取的医疗文本数据所属类型分布状况;步骤三:将同一类型的医疗文本数据通过识别模块进行实体及关系识别,确定得到不同类型医疗文本数据的初级结构数据,并建立存储库对新的实体标签或关系录入至存储模块中;步骤四:通过优化模块对获得的初级结构数据进行校对,得到不合格的初级结构数据,并将不合格的初级结构数据进行优化,降低不合格的初级结构数据量;步骤五:将优化后的初级结构数据和步骤三得到的初级结构数据经由抽取预设规则配合抽取模块进行二次抽取,得到最终结构数据;
步骤六:通过验证模块对得到的最终结构数据进行验证,判断数据的完整性和准确性。
[0008]进一步的,所述预处理模块对医疗文本数据进行预处理的具体操作步骤如下;预处理模块内分别设置有缺失值处理单元、离群点处理单元及不一致数据处理单元;缺失值处理单元获取待抽取医疗文本数据,并抓取数据中的缺失值,针对缺失值,通过基于缺失值的分布特性和重要率进行相对应的处理方法;当缺失率高于80%,覆盖率和重要率低于预设值时,则将缺失值的数据直接删除,即为缺失值删除;当缺失率小于95%时,且重要率低于预设值时,则根据数据的分布情况用基于统计量填充进行填充,即为缺失值的填充;利用离群点处理单元对处于特定分布区域范围之外的数据进行删除,处于特定分布区域范围之外的数据为离群点或异常值,也称此类数据为异常或噪声;通过不一致数据处理单元对与原始数据不一致或错误数据进行修正,可通过与原始数据进行比对和更正,同时利用知识工程工具对违反规则的数据进行检测。
[0009]进一步的,所述分类模块判断待抽取的医疗文本数据的类型的具体操作步骤如下:医疗文本数据类型由诊疗数据、研发数据、患者数据及支付或医保数据组成;根据医疗文本数据类型中的诊疗数据、研发数据、患者数据及支付或医保数据分别建立四个文本数据模板,并将经过预处理的医疗文本数据分别与四个文本数据模板进行比对,判断经过预处理的医疗文本数据跟四个文本数据模板重合度最高,以得到医疗文本数据的类型,医疗文本数据类型分为治疗数据类别、研发数据类别、患者数据类别及支付或医保数据类别;诊疗数据模板内包含电子病历数据模板、传统检测项目结果数据模板、新兴检测项目结果数据模板、医生用药选择数据模板及诊疗路径记录数据模板,并将经过预处理的医疗文本数据与诊疗数据模板内包含的若干个数据模板进行比对,得到诊疗数据模板重合度;研发数据模板内包含医院临床试验数据模板及科研机构最新科研进展数据模板,并将经过预处理的医疗文本数据与研发数据模板内包含的两种数据模板进行比对,得到研发数据模板重合度;患者数据模板内包含可穿戴设备收集的体征类的健康管理数据模板及网络行为数据模板,并将经过预处理的医疗文本数据与患者数据模板内包含的两种数据模板进行比对,得到患者数据模板重合度;支付或医保数据模板包含患者支付记录数据模板、报销记录数据模板及医药流通记录数据模板,并将经过预处理的医疗文本数据与支付或医保数据模板内包含的若干个数据模板进行比对,得到支付或医保数据模板重合度;分别将诊疗数据模板重合度、研发数据模板重合度、患者数据模板重合度及支付或医保数据模板重合度进行比对,得到最高值,以此判断经过预处理的医疗文本数据所处的数据模板,得到待抽取医疗文本数据的类型;
分别对位于治疗数据类别、研发数据类别、患者数据类别及支付或医保数据类别四个类别的医疗文本数据数量进行统计,得到本次抽取的医疗文本数据所属类型分布状况。
[0010]进一步的,所述优化模块对获得的初级结构数据进行校对的具体操作步骤如下:将异常的初级结构数据量和初级结构数据总量分别标定为y和z,利用公式得到初级结构数据的合格率H,将初级数据合格率H与预设合格率进行比对,判断初级数据合格率H是否达标;将异常的初级结构数据进行分析,判断异常的初级结构数据的异常原因,并根据异常的初级结构数据的异常原因得到异常初级结构数据的可修复率,将可修复率与预设可修复率进行比对,当可修复率大于预设可修复率则对异常的初级结构数据进行修复;当可修复率小于预设可修复率,则对此部分的异常的初级结构数据进行剔除,降低异常或不合格的初级结构数据量;进一步的,所述优化模块对异常的初级结构数据进行修复的具体操作步骤如下:对存在缺失值的异常初级结构数据进行数据忽略,当数据忽略量或忽略的数据连贯性大于预设值时,利用均值填充法对缺失值进行填充,使用样本的均值替换异常初级结构数据中的忽略量,对样本较为平滑的数据极为合适,当出现填充或修复的效果未达到预计效果时,利用矩阵分解或链式方程对异常的初级结构数据中的缺失值进行多源插补修复。
[0011]进一步的,所述抽取模块对初级结构数据及优化后的初级结构数据抽取的具体操作步骤如下:将得到的初级结构数据及优化后的初级结构数据经由抽取预设规则进行二次抽取得到最终结构数据,其中抽取预设规则即从schema设计上囊括所有医疗文书涉及到的医疗实体,同时在文本标注与模型训练上采用最细粒度信息单元进行数据标注与模型训练,并且提供除实体识别、关系抽取之外的通用属性识别以及特殊属性识别的能力。
[0012]进一步的,所述验证模块对最终结构数据完整性和准确性进行验证的具体操作步骤如下:数据完整性及准确性分别通过数据的查全率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细粒度各场景通用的医疗文本结构化信息抽取方法,包括以下步骤:步骤一:获取待抽取的医疗文本数据,通过预处理模块对医疗文本数据进行预处理,剔除无效或脏数据;步骤二:对完成预处理后的医疗文本数据利用分类模块进行定义,确定医疗文本数据的类型,并统计不同类型的医疗文本数据的数量,得到本次抽取的医疗文本数据所属类型分布状况;步骤三:将同一类型的医疗文本数据通过识别模块进行实体及关系识别,确定得到不同类型医疗文本数据的初级结构数据,并建立存储库对新的实体标签或关系录入至存储模块中;步骤四:通过优化模块对获得的初级结构数据进行校对,得到不合格的初级结构数据,并将不合格的初级结构数据进行优化,降低不合格的初级结构数据量;步骤五:将优化后的初级结构数据和步骤三得到的初级结构数据经由抽取预设规则配合抽取模块进行二次抽取,得到最终结构数据;步骤六:通过验证模块对得到的最终结构数据进行验证,判断数据的完整性和准确性。2.根据权利要求1所述的一种细粒度各场景通用的医疗文本结构化信息抽取方法,其特征在于,所述预处理模块对医疗文本数据进行预处理的具体操作步骤如下:预处理模块内分别设置有缺失值处理单元、离群点处理单元及不一致数据处理单元;缺失值处理单元获取待抽取医疗文本数据,并抓取数据中的缺失值,针对缺失值,通过基于缺失值的分布特性和重要率进行相对应的处理方法;当缺失率高于80%,覆盖率和重要率低于预设值时,则将缺失值的数据直接删除,即为缺失值删除;当缺失率小于95%时,且重要率低于预设值时,则根据数据的分布情况用基于统计量填充进行填充,即为缺失值的填充;利用离群点处理单元对处于特定分布区域范围之外的数据进行删除,处于特定分布区域范围之外的数据为离群点或异常值,也称此类数据为异常或噪声;通过不一致数据处理单元对与原始数据不一致或错误数据进行修正,可通过与原始数据进行比对和更正,同时利用知识工程工具对违反规则的数据进行检测。3.根据权利要求1所述的一种细粒度各场景通用的医疗文本结构化信息抽取方法,其特征在于,所述分类模块判断待抽取的医疗文本数据的类型的具体操作步骤如下:医疗文本数据类型由诊疗数据、研发数据、患者数据及支付或医保数据组成;根据医疗文本数据类型中的诊疗数据、研发数据、患者数据及支付或医保数据分别建立四个文本数据模板,并将经过预处理的医疗文本数据分别与四个文本数据模板进行比对,判断经过预处理的医疗文本数据跟四个文本数据模板重合度最高,以得到医疗文本数据的类型,医疗文本数据类型分为治疗数据类别、研发数据类别、患者数据类别及支付或医保数据类别;诊疗数据模板内包含电子病历数据模板、传统检测项目结果数据模板、新兴检测项目结果数据模板、医生用药选择数据模板及诊疗路径记录数据模板,并将经过预处理的医疗文本数据与诊疗数据模板内包含的若干个数据模板进行比对,得到诊疗数据模板重合度;研发数据模板内包含医院临床试验数据模板及科研机构最新科研进展数据模板,并将经过预处理的医疗文本数据与研发数据模板内包含的两种数据模板进行比对,得到研发数
据模板重合度;患者数据模板内包含可穿戴设备收集的体征类的健康管理数据模板及网络行为数据模板,并将经过预处理的医疗...

【专利技术属性】
技术研发人员:张海鹏詹威郭立超
申请(专利权)人:熙牛医疗科技浙江有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1