医疗数据结构化处理方法、装置及设备制造方法及图纸

技术编号：31506980 阅读：20 留言：0更新日期：2021-12-22 23:39

本发明专利技术公开了一种医疗数据结构化处理方法、装置及设备。医疗数据结构化处理方法包括利用预设规则引擎根据对应的预设规则对待处理数据进行解析，获取半结构化的中间数据；利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理，获取分词结果，所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个；采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注，生成结构化的目标数据。本发明专利技术能够减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化。解决OOV问题以及让病历信息格式化。解决OOV问题以及让病历信息格式化。

全部详细技术资料下载

【技术实现步骤摘要】
医疗数据结构化处理方法、装置及设备

[0001]本专利技术涉及信息处理
，特别是涉及医疗数据结构化处理方法、装置及设备。

技术介绍

[0002]医院提供的电子病历数据一般都是采用自然语言描述患者的情况，比如主诉是什么症状、既往得过什么疾病，信息量丰富。为了利用信息量丰富的电子病历进行后续规则的编写，通常会希望能够从自然语言中抽取出数字化的信息，比如：将自然语言表达的主诉中的疾病与icd10疾病标准进行对应。
[0003]对于自然语言的处理大致分为两类：一是分类，二是结构化预测。结构化预测问题包括将病历结构化，指将医院的电子病历全量信息做集中处理，以得到结构清晰的病历信息，让病历信息格式化，利于查看。如从病历中抽取包含疾病、症状、手术等多种专业属性较强的信息，以及时间、动作、医生姓名等日常用语的信息。
[0004]然而在将病历结构化的过程中，通常需要对病历中的数据进行分词处理，但由于病历中的术语书写随意，所以往往会出现词典外的词，这样的词就无法提取，即会出现OOV(Out of Vocabulary)问题。如此，会造成病历结构化过程失败。
[0005]因此，如何减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化，是本领域技术人员急需解决的技术问题。

技术实现思路

[0006]本专利技术提供了一种医疗数据结构化处理方法、装置及设备，能够减少源代码的修改及生成发布、使分词更加准确并解决OOV问题以及让病历信息格式化。
[0007]本专利技术提...

【技术保护点】

【技术特征摘要】
1.一种医疗数据结构化处理方法，其特征在于，包括：利用预设规则引擎根据对应的预设规则对待处理数据进行解析，获取半结构化的中间数据；利用分词工具基于预先构建的基库对所述半结构化的中间数据进行分词处理，获取分词结果，所述预先构建的基库包括疾病基库、手术基库、药品基库、诊疗基库以及材料基库中的一个或多个；采用预设模型根据与所述分词结果中每一分词对应的标注规则分别对所述每一分词进行序列标注，生成结构化的目标数据。2.根据权利要求1所述的医疗数据结构化处理方法，其特征在于，所述预设规则引擎包括根据java代码和groovy编写的规则引擎。3.根据权利要求1或2所述的医疗数据结构化处理方法，其特征在于，所述利用预设规则引擎根据对应的预设规则对待处理数据进行解析，获取半结构化的中间数据包括：对所述待处理数据进行预处理；获取需要解析的字段及字段规则，根据所述字段规则从预处理后的所述待处理数据中获取所述字段对应的值，生成键值对格式的半结构化的中间数据。4.根据权利要求1所述的医疗数据结构化处理方法，其特征在于，所述预先构建的基库包括多个层级及多类信息。5.根据权利要求1所述的医疗数据结构化处理方法，其特征在于，所述分词工具包括jieba分词工具。6.根据权利要求1所述的医疗数据结构化处理方法，其特征在于，所述分词结果包括每一分词对应的词性，所述采用预设模型根据与所述分词结果中每一分词对应的标注规则分...

【专利技术属性】
技术研发人员：龚快快，孙铭权，付相钞，
申请(专利权)人：上海保链科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人