一种面向护理记录的事件抽取方法技术

技术编号:33347957 阅读:14 留言:0更新日期:2022-05-08 09:47
本发明专利技术涉及一种面向护理记录的事件抽取方法,属于自然语言处理中的信息抽取技术领域。本发明专利技术首次提出了面向护理记录应用事件抽取技术,结合护理记录的特点和现有护理技术类别划分规范,设计了合适的护理事件模版和一系列标注规则,解决了护理领域的多事件论元归属问题。本发明专利技术可以实现护理事件抽取,并自动检测出人工护理记录的常见缺项。对比现有的事件抽取技术,能够有效无法预测论元所属事件的问题,在多事件护理语料中论元角色分类的的效果更好。更好。更好。

【技术实现步骤摘要】
一种面向护理记录的事件抽取方法


[0001]本专利技术涉及一种面向护理记录的事件抽取方法,属于自然语言处理中的信息抽取

技术背景
[0002]护理在临床上有着广泛的应用,护理工作直接影响到病人的心理、舒适度,特别是ICU重症加强护理病房等,对护理工作的要求很高。目前,大部分医院都已意识到护理工作及护理记录的重要性,并采取各类技术手段,逐渐加强对日常护理记录的统计、分析和整理。
[0003]然而,当前对护理记录的重视程度仍远低于电子病历。绝大多数护理记录依然采取人工记录,存在信息数据非结构化的问题,经常出现描述不全、记录缺项等问题。
[0004]从信息处理角度看,护理记录中包含大量所需的护理事件。在自然语言处理中,事件抽取(Event Extraction,EE)的目标是检测文本中的事件实例,它要求从非结构化信息中抽取出相应事件,并以结构化的形式进行表示。因此,针对护理记录不规范、非结构化、人工监管困难等问题,将事件抽取技术应用于护理记录,可以有效检测书写错误,帮助整理护理记录。
[0005]现有的事件抽取方法主要包括管道式和联合式两种。其中,管道式首先抽取触发词,再抽取相应的论元,论元识别时,触发词抽取的模型的结果错误会影响论元抽取的结果。联合式方法则同时抽取触发词和论元,不存在错误传播,但是当一个文本包含多个事件时,标签相同的论元无法预测出其所属的事件类型。
[0006]目前,面向护理记录的事件抽取方法十分稀缺。此类方法面临的主要困难包括:领域数据难构造,标注成本大,无标注数据的评价指标,导致设计一种通用的护理事件模版和标注规范难度很大。此外,通常根据事件模版的定义,不同事件类型的论元角色不同,但因护理领域的语料特点,所有护理事件的论元角色均相同,因此,事件抽取方法还需要解决论元的事件归属问题。

技术实现思路

[0007]本专利技术的目的是为了解决现有人工护理记录法存在书写错误、记录缺项等非结构化问题,创造性地提出一种面向护理记录的事件抽取任务,并提出一种针对当前护理事件抽取语料的事件抽取方法,实现自动化检测护理记录缺项漏项。
[0008]本专利技术的创新点在于:首次提出了面向护理记录应用事件抽取技术,结合护理记录的特点和现有护理技术类别划分规范,设计了合适的护理事件模版和一系列标注规则,并解决了护理领域的多事件论元归属问题。
[0009]为实现上述目的,本专利技术所采用的技术方案如下:
[0010]一种面向护理记录的事件抽取方法,基于管道式方法,对非结构化的包含N个护理事件的护理记录进行操作。包括以下步骤:
[0011]首先,结合护理记录信息的特点,采用自然语言处理技术,对护理数据进行预处理,包括句子边界处理、词性标注。
[0012]同时,根据护理操作的类别,针对性地筛选和类别对应的触发词,并结合现有护理技术类别划分规范,设计对应的事件类型和论元角色。
[0013]然后,选择标注工具,制定触发词和论元的标注规范。从护理记录中抽样语料,并按照标注规范来标注数据,构建护理事件抽取语料库。
[0014]之后,基于预训练模型BERT和条件随机场(Conditional Random Field,CRF)的序列标注模型,构建触发词抽取模型,抽取出护理记录中所有触发词。
[0015]随后,条件融合抽取出的触发词嵌入T,基于预训练模型BERT和条件随机场CRF,构建论元抽取模型,抽取并识别每个触发词对应的论元。
[0016]最后,利用训练好的事件抽取模型在人工护理记录上进行事件抽取,对比语料库的论元模版,找到每种事件类型的论元角色缺项。
[0017]有益效果
[0018]本专利技术方法,可以实现护理事件抽取,并自动检测出人工护理记录的常见缺项。对比现有的事件抽取技术,本方法解决了无法预测论元所属事件的问题,在多事件护理语料中论元角色分类的的效果更好。
附图说明
[0019]图1为本专利技术方法的流程示意图。
[0020]图2为本方法的事件抽取模型图。
具体实施方式
[0021]下面结合附图和实施例对本专利技术方法做进一步详细说明。
[0022]实施例
[0023]如图1所示,以ICU护理记录为例,一种面向护理记录的事件抽取方法,包括以下步骤:
[0024]步骤1:清洗获取到的原始ICU护理记录,对包含多个句子的记录进行切割,处理无意义的空格。
[0025]步骤2:利用分词工具(如jieba),统计动词及其词频,结合ICU护理技术分类类别,选择和护理操作类别对应的词汇(如鼻饲、给氧、泵入等)作为触发词,并设计其护理事件类型。
[0026]步骤3:设计所有的护理事件类型均包含三个论元角色:患者状态、客体、护理操作结果。论元容易存在边界模糊和论元角色分类歧义,因此,针对歧义和边界问题,制定论元标注规范,包括以下规则:
[0027]患者状态在触发词前,操作结果在触发词后;
[0028]论元包括修饰词;
[0029]一条护理记录包含多个事件时,两个事件的论元不重合;
[0030]一个论元角色下允许有多个论元实体。
[0031]步骤4:随机采样若干步骤1清理后的数据,根据步骤2和步骤3设计的标注规范来
标注数据,构建护理事件抽取语料库。
[0032]本实施例中,最终语料库包含有32种护理事件类型和3种论元角色。
[0033]例如,护理记录“患者入室血压164/129mmHg,复测体温38.7℃,遵医嘱给予患者吲哚美辛涮栓25mg肛入。”包含检查指标判读和具体器官操作两个护理事件,如表1所示。检查指标判读事件的触发词是复测,客体是体温,护理操作结果是38.7℃;具体器官操作事件的触发词是肛入,客体是吲哚美辛栓25mg。
[0034]表1护理事件样例
[0035][0036]步骤5:如图2左侧所示,训练触发词抽取器,检测触发词和分类事件类型。
[0037]具体地,将护理记录文本X=(x1,x2,

,x
n
)输入至预训练模型BERT,生成句子表示H=(h1,h2,

,h
n
),n为文本长度,x
n
表示文本的每个字,h
n
表示x
n
经过BERT后的词向量表示。将句子表示H输入进全连接层进一步融合信息,最后输入至条件随机场,学习每个字的BIO标签之间的关系,即Begin、Inside、Outside,抽取文本的所有触发词。
[0038]步骤6:如图2右侧所示,训练论元抽取器,检测论元和分类论元角色。
[0039]具体地,将护理记录文本X=(x1,x2,

,x
n
)输入至预训练模型BERT,生成句子表示G=(g1,g2,

,g
n
),n为文本长度,x
n
表示文本的每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向护理记录的事件抽取方法,其特征在于,基于管道式方法,对非结构化的包含N个护理事件的护理记录进行操作;首先,结合护理记录信息的特点,采用自然语言处理技术,对护理数据进行预处理,包括句子边界处理、词性标注;同时,根据护理操作的类别,针对性地筛选和类别对应的触发词,并结合现有护理技术类别划分规范,设计对应的事件类型和论元角色;然后,选择标注工具,制定触发词和论元的标注规范;从护理记录中抽样语料,并根据标注规范来标注数据,构建护理事件抽取语料库;其中,标注规范包括以下规则:患者状态在触发词前,操作结果在触发词后;论元包括修饰词;一条护理记录包含多个事件时,两个事件的论元不重合;一个论元角色下允许有多个论元实体;之后,基于预训练模型BERT和条件随机场的序列标注模型,构建触发词抽取模型,抽取出护理记录中所有触发词;具体地,将护理记录文本X=(x1,x2,

,x
n
)输入至预训练模型BERT,生成句子表示H=(h1,h2,

,h
n
),n为文本长度,x
n
表示文本的每个字,h
n
表示x
n
经过BERT后的词向量表示;将句子表示H输入进全连接层进一步融合信息,最后输入至条件随机场,学习每个字的BIO标签之间的关系,即Begin、Inside、Outside,抽取文本的所有触发词;随后,条件融合抽取出的触发词嵌入T,基于预...

【专利技术属性】
技术研发人员:郭宇航宋若雨
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1