医疗数据结构化处理方法、装置及设备制造方法及图纸

技术编号:31506980 阅读:20 留言:0更新日期:2021-12-22 23:39
本发明专利技术公开了一种医疗数据结构化处理方法、装置及设备。医疗数据结构化处理方法包括利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据;利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理,获取分词结果,所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个;采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据。本发明专利技术能够减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化。解决OOV问题以及让病历信息格式化。解决OOV问题以及让病历信息格式化。

【技术实现步骤摘要】
医疗数据结构化处理方法、装置及设备


[0001]本专利技术涉及信息处理
,特别是涉及医疗数据结构化处理方法、装置及设备。

技术介绍

[0002]医院提供的电子病历数据一般都是采用自然语言描述患者的情况,比如主诉是什么症状、既往得过什么疾病,信息量丰富。为了利用信息量丰富的电子病历进行后续规则的编写,通常会希望能够从自然语言中抽取出数字化的信息,比如:将自然语言表达的主诉中的疾病与icd10疾病标准进行对应。
[0003]对于自然语言的处理大致分为两类:一是分类,二是结构化预测。结构化预测问题包括将病历结构化,指将医院的电子病历全量信息做集中处理,以得到结构清晰的病历信息,让病历信息格式化,利于查看。如从病历中抽取包含疾病、症状、手术等多种专业属性较强的信息,以及时间、动作、医生姓名等日常用语的信息。
[0004]然而在将病历结构化的过程中,通常需要对病历中的数据进行分词处理,但由于病历中的术语书写随意,所以往往会出现词典外的词,这样的词就无法提取,即会出现OOV(Out of Vocabulary)问题。如此,会造成病历结构化过程失败。
[0005]因此,如何减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化,是本领域技术人员急需解决的技术问题。

技术实现思路

[0006]本专利技术提供了一种医疗数据结构化处理方法、装置及设备,能够减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化。
[0007]本专利技术提供了如下方案:
[0008]一种医疗数据结构化处理方法,包括:
[0009]利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据;
[0010]利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理,获取分词结果,所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个;
[0011]采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据。
[0012]可选地,所述预设规则引擎包括根据java代码和groovy编写的规则引擎。
[0013]可选地,所述利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据包括:
[0014]对所述待处理数据进行预处理;
[0015]获取需要解析的字段及字段规则,根据所述字段规则从预处理后的所述待处理数
据中获取所述字段对应的值,生成键值对格式的半结构化的中间数据。
[0016]可选地,所述预先构建的基库包括多个层级及多类信息。
[0017]可选地,所述分词工具包括jieba分词工具。
[0018]可选地,所述分词结果包括每一分词对应的词性,所述采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据包括:
[0019]确定所述分词结果中每一分词对应的标注规则;
[0020]根据对应的所述标注规则以及所述词性对每一分词进行序列标注,生成结构化的目标数据。
[0021]可选地,所述预设模型包括隐马尔科夫模型、结构化感知机和条件随机场中的一种或几种。
[0022]一种医疗数据结构化处理装置,包括:
[0023]解析模块,用于利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据;
[0024]分词模块,与所述解析模块连接,用于利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理,获取分词结果,所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个;
[0025]标注模块,与所述分词模块连接,用于采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据。
[0026]一种医疗数据结构化处理设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现所述的数据结构化处理方法。
[0027]一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时,实现所述的数据结构化处理方法。
[0028]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0029]本专利技术提供的医疗数据结构化处理方法,首先利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据。其中,待处理数据包括病历的全量数据。不同的医院的病历类型不尽相同,病历类型包括门诊病历、住院病历、手术病历和出院病历等,不同的医院的病历全量格式也不尽相同,病历全量格式包括txt、html及xml等。对于不同医院的不同病历类型的不同病历全量格式,本专利技术在预设规则引擎中配置一套自适应的全量解析规则,将已有的病历全量信息通过对应的预设规则进行解析,得到更加清晰的病历信息,预设规则可以通过不同医院的不同类型做灵活的配置,减少源代码的修改及生成发布。然后,利用分词工具基于预先构建的基库对半结构化的中间数据进行分词处理,获取分词结果,预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个。通过分词工具将包含全量信息的待处理数据分成基础词得到分词结果。最后,采用预设模型根据与分词结果中每一分词对应的标注规则分别对每一分词进行序列标注,生成结构化的目标数据,其中,序列标注包括对每一分词进行标注和将标注后的所有分词排列组合形成结构化的目标数据。预设模型可以通过统计的方式进行预测,通过标注完成的分词,可以得到专有名词组合的规律,并形成统计结果,从而得到结构化的目标
数据。因此,通过本专利技术提供的数据结构化处理方法优化了病历结构化过程,并顺利地输出结构化数据。
[0030]进一步地,由于病历中存在随意书写的口语化词汇,这样的口语化词汇与基库中的专业术语无法匹配,也即OOV问题。为了解决这一问题,本专利技术通过将基库中的语料标注后,得到的信息不是一个具体的词与另一个具体的词的统计信息,而是一个词的抽象特征,即词性,进一步通过学习训练后得到的是词性之间结合的统计信息,所以只要词性关系合理,即可进行提取,从而通过提升抽象层次的方式具备了泛化能力,解决了OOV问题。
[0031]当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是本专利技术一个实施例提供的医疗数据结构化处理方法的流程框图;
[0034]图2是本专利技术另一个实施例提供的医疗数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗数据结构化处理方法,其特征在于,包括:利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据;利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理,获取分词结果,所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个;采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注,生成结构化的目标数据。2.根据权利要求1所述的医疗数据结构化处理方法,其特征在于,所述预设规则引擎包括根据java代码和groovy编写的规则引擎。3.根据权利要求1或2所述的医疗数据结构化处理方法,其特征在于,所述利用预设规则引擎根据对应的预设规则对待处理数据进行解析,获取半结构化的中间数据包括:对所述待处理数据进行预处理;获取需要解析的字段及字段规则,根据所述字段规则从预处理后的所述待处理数据中获取所述字段对应的值,生成键值对格式的半结构化的中间数据。4.根据权利要求1所述的医疗数据结构化处理方法,其特征在于,所述预先构建的基库包括多个层级及多类信息。5.根据权利要求1所述的医疗数据结构化处理方法,其特征在于,所述分词工具包括jieba分词工具。6.根据权利要求1所述的医疗数据结构化处理方法,其特征在于,所述分词结果包括每一分词对应的词性,所述采用预设模型根据与所述分词结果中每一分词对应的标注规则分...

【专利技术属性】
技术研发人员:龚快快孙铭权付相钞
申请(专利权)人:上海保链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1