病历结构化方法、装置及存储介质制造方法及图纸

技术编号:34602777 阅读:15 留言:0更新日期:2022-08-20 09:05
本发明专利技术公开一种病历结构化方法、装置及存储介质,包括:将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,形成树状结构;根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式的出现次数,以及与其匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的匹配结果的数量为1或者0,循环结束。本发明专利技术一方面可以借助病历模板的结构化信息,一方面又能获得超出模板固定限制的自由语句,可大大提高结构化的效果。构化的效果。构化的效果。

【技术实现步骤摘要】
病历结构化方法、装置及存储介质


[0001]本方法涉及自然语言处理领域,具体是提出了一种病历结构化方法、装置及存储介质,可以实现对医院文本电子病历进行关键词抽取和结构化解析,形成结构化信息表格。

技术介绍

[0002]病历结构化是指将医院产生的患者电子病历(通常为自然语言描述的文本)转换成结构化的形式,从而方便计算机进行统计建模分析,用以支持临床科研、临床辅助决策、病历质控等实际应用。
[0003]病历结构化技术根据实现方式不同可以分为病历前结构化和病历后结构化。病历前结构化是指通过改进电子病历编辑器的交互方式,医生在录入电子病历过程中,在定制的病历模板录入界面下,通过点选、模板定义等输入方式,在录入病历的过程中直接将病历按信息固定结构进行输入和保存。病历前结构化技术是一种传统的结构化技术,由于直接采用了结构化的模板来限制输入内容的顺序和输入范围,生成结构化信息准确率高,但结构化录入能表示的数据维度有限,很多信息类型很难通过点选等交互形式进行录入。此外,预定义的模板数量有限,无法充分覆盖临床不同疾病不同特殊情况的病历书写需求,通用性和可扩展性弱。
[0004]病历后结构化则是利用自然语言处理技术,将医生以自然语言形式录入、存储的电子病历进行分析,解析其内在结构、并按结构顺序抽取相应信息。病历后结构化是近年来随着人工智能自然语言处理技术的兴起而发展起来的一种电子病历信息抽取技术,对原始病历录入与保存形态没有限制,后结构化对抽取的信息维度也没有限制,可以通过不断优化自然语言处理技术对医学文本的处理和理解能力来实现信息抽取广度和精度的提升。
[0005]考虑到许多医院已经有一些前结构化或近似前结构化的工作模式在被实际使用,比如一些预设的病历模板在临床上被广泛使用,医生通过复制粘贴病历模板并按患者实际病情进行修改和补充,即可快速完成病历书写。这些模板虽然在具体实施过程中医生会因为个人习惯有相应改动,但大体结构还是有的,只是医生在实际病历描述上仍个性灵活,导致病历文本不能直接结构化或结构化效果不好。

技术实现思路

[0006]为解决以上问题,本专利技术提供一种病历结构化方法,包括以下步骤:
[0007]将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;
[0008]对所述树状结构列出每个叶子节点直到根节点的父节点路径;
[0009]根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;
[0010]使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从
所述父节点路径中,结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的出现次数以及匹配结果的数量都为1或者0,循环结束。
[0011]可选的,所述将正则表达式与匹配结果保存,是指将正则表达式与匹配结果以键值对的形式保存。
[0012]可选的,所述将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,将所述病历模板转换成树状结构,包括:
[0013]将病历模板作为根节点,将病历模板中的标题、固定描述字段或者关键词作为树节点,将症状、结果或非固定描述结果作为叶子节点,按照医学关系理解进行归属组成树状结构。
[0014]可选的,所述根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式,包括:
[0015]统计叶子节点在采用该病历模板的不同实际病历中的书写内容,确定叶子节点的正则表达式。
[0016]可选的,从病历模板的设计文档中获取叶子节点限定的录入选项,作为叶子节点的正则表达式。
[0017]可选的,叶子节点与其父节点组合正则表达式符合正则双向最短匹配规则,所述正则双向最短匹配规则是指匹配字符串a_string到b_string的最短距离,其正则表达式为:a_string+((?!cc).)*?+b_string,
[0018]?!表示负向预查,在任何不匹配字符串cc开始处匹配查找字符串;
[0019]*?表示最短匹配;
[0020]其中,a_string表示叶子节点的字符串;
[0021]b_string表示父节点的字符串;
[0022]cc=该叶子节点的逐级父节点的兄弟节点拼接形成的字符串。
[0023]本专利技术还提供一种病历结构化装置,包括:
[0024]树状结构生成模块,用于将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;
[0025]父节点路径生成模块,用于对所述树状结构列出每个叶子节点直到根节点的父节点路径;
[0026]正则表达式生成模块,用于根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;
[0027]病历数据抽取模块,用于使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从所述父节点路径中,结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的匹配结果的数量为1或者0,循环结束。
[0028]本专利技术还提供一种电子装置,包括处理器和存储器,在所述存储器中存储有病历结构化程序,所述病历结构化程序被所述处理器执行时,实现如上所述的病历结构化方法。
[0029]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如上所述的病历
结构化方法。
[0030]本专利技术一方面可以借助已有的定制模板中隐含的结构化信息,另一方面又能获得那些医生出于个人习惯或病情需求书写的超出模板固定限制的自由语句,作为病历后结构化相关技术的补充,可大大提高结构化的效果。
[0031]本专利技术采用现有的定制化的模板,通过创建树状结构构造了各个字段的关系映射,而键值对中的value值通过正则表达式和组合路径里的父节点,循环请求实现了准确定位提取,解决了当前医院有定制模板但实际病历描述仍个性灵活不能直接结构化的问题。作为通过深度学习进行结构化的补充,提高了结构化的效果。
附图说明
[0032]通过结合下面附图对其实施例进行描述,本专利技术的上述特征和技术优点将会变得更加清楚和容易理解。
[0033]图1是表示本专利技术实施例的病历结构化方法的流程图;
[0034]图2是表示本专利技术实施例的树状结构的示意图;
[0035]图3是表示本专利技术实施例的电子装置的硬件架构示意图;
[0036]图4是表示本专利技术实施例的病历结构化程序的程序模块示意图。
具体实施方式
[0037]下面将参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种病历结构化方法,其特征在于,包括以下步骤:将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,从而将所述病历模板转换成树状结构;对所述树状结构列出每个叶子节点直到根节点的父节点路径;根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式;使用正则表达式遍历实际病历,统计叶子节点对应的正则表达式在整个实际病历中的出现次数,并统计与该正则表达式匹配的匹配结果,若正则表达式的出现次数和匹配结果的数量相同且都为1,则获取匹配结果和位置,将正则表达式与匹配结果保存,否则从所述父节点路径中,结合正则表达式逐级父节点重新组合正则表达式遍历实际病历,直至正则表达式的出现次数以及匹配结果的数量都为1或者0,循环结束。2.根据权利要求1所述的病历结构化方法,其特征在于,所述将正则表达式与匹配结果保存,是指将正则表达式与匹配结果以键值对的形式保存。3.根据权利要求1所述的病历结构化方法,其特征在于,所述将病历模板从根节点开始按照特征描述层级梳理直至叶子节点,将所述病历模板转换成树状结构,包括:将病历模板作为根节点,将病历模板中的标题、固定描述字段或者关键词作为树节点,将症状、结果或非固定描述结果作为叶子节点,按照医学关系理解进行归属组成树状结构。4.根据权利要求1所述的病历结构化方法,其特征在于,所述根据叶子节点适合填写内容,生成每个叶子节点对应的正则表达式,包括:统计叶子节点在采用该病历模板的不同实际病历中的书写内容,确定叶子节点的正则表达式。5.根据权利要求1所述的病历结构化方法,其特征在于,从病历模板的设计文档中获取叶子节点限定的录入选项,作为叶子节点的正则表达式。6.根据权利要求1所述的病历结构化方法,其特征在于,叶子节点与其父节点组合正则表达式符合...

【专利技术属性】
技术研发人员:赵许盼陶焜高菲
申请(专利权)人:北京爱医声科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1