医疗事件的抽取方法和装置制造方法及图纸

技术编号：39301135 阅读：11 留言：0更新日期：2023-11-12 15:52

本发明专利技术公开了一种医疗事件的抽取方法和装置。该医疗事件的抽取方法包括：将医疗电子病历输入训练完成的命名实体识别模型进行识别，得到命名实体识别结果；将命名实体识别结果输入训练完成的事件论元填充模型进行事件提取，得到的结构化事件信息；依据结构化事件信息确定医疗电子病历中的目标医疗事件。本发明专利技术提供的方案能够达到提高医疗信息处理的效率和改善了医疗服务质量，还为后续的医疗知识对齐和融合奠定基础的技术效果。对齐和融合奠定基础的技术效果。对齐和融合奠定基础的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
医疗事件的抽取方法和装置

[0001]本专利技术涉及互联网技术应用领域，尤其涉及一种医疗事件的抽取方法和装置。

技术介绍

[0002]在医疗领域，医疗电子病历等数字化工具能够高效记录患者的诊疗信息。其中，以医疗电子病历为例，医疗电子病历的优点在于可以快速判断合理诊疗行为，并且方便存储。
[0003]但是医疗电子病历的数据往往是以书面化的形式存在的，无法对医疗电子病历进行语义层面的分析和检索，因此信息提取难度较大。而且，传统的医疗电子病历还有内容缺失、错误、重复等问题，基于上述问题会存在如下缺陷：影响医疗质量和安全、增加医疗纠纷的风险、降低数据的可靠性和利用价值、以及，影响统计分析和科研等。这些缺陷不但会影响医院的管理和评价，还可能降低医疗电子病历的法律地位和证据力。同时，存储和管理体系的不完善也会导致医生实施不符合治疗目标的治疗措施，从而浪费医疗资源并可能对患者的生命和财产安全构成威胁。
[0004]针对由于现有技术中医疗电子病历功能单一，且无法提取有效信息的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]为解决上述技术问题，本专利技术实施例期望提供一种医疗事件的抽取方法和装置，以至少解决由于现有技术中医疗电子病历功能单一，且无法提取有效信息的问题。
[0006]本专利技术的技术方案是这样实现的：
[0007]本专利技术实施例提供一种医疗事件的抽取方法，包括：将医疗电子病历输入训练完成的命名实体识别模型进行识别，得到命名实体识别结果；将命名实体识别结果输入...

【技术保护点】

【技术特征摘要】
1.一种医疗事件的抽取方法，其特征在于，包括：将医疗电子病历输入训练完成的命名实体识别模型进行识别，得到命名实体识别结果；将所述命名实体识别结果输入训练完成的事件论元填充模型进行事件提取，得到的结构化事件信息；依据所述结构化事件信息确定所述医疗电子病历中的目标医疗事件。2.根据权利要求1所述的医疗事件的抽取方法，其特征在于，在所述命名实体识别模型和所述事件论元填充模型训练之前，所述方法还包括：从医疗数据库中获取医疗电子病历数据、预设事件论元角色和命名实体识别类型；依据所述命名实体识别类型对所述医疗电子病历数据进行标注，得到所述医疗电子病历数据中的实体信息；依据所述预设事件论元角色对所述医疗电子病历数据进行标注，得到所述医疗电子病历数据中的事件信息；依据所述医疗电子病历数据、所述事件信息和所述实体信息生成数据集文件；依据所述数据集文件生成训练数据和测试数据；其中，所述事件信息包括：所述预设事件论元角色的label数据，所述预设事件论元角色包括：主体词、描述词、解剖部位以及发生状态；所述实体信息包括：所述命名实体识别类型的label数据，所述命名实体识别类型包括：疾病名称、发病部位、发病症状和患者状态。3.根据权利要求2所述的医疗事件的抽取方法，其特征在于，所述方法还包括：训练命名实体识别模型，得到所述训练完成的命名实体识别模型，其中，所述训练命名实体识别模型，得到所述训练完成的命名实体识别模型包括：将所述训练数据输入所述命名实体识别模型中，对所述训练数据中的实体进行BIO标注，得到标注结果，依据所述标注结果计算损失函数进行反向传播，得到实体抽取结果，直至所述命名实体识别模型收敛，得到所述训练完成的命名实体识别模型；其中，所述训练数据包括：医疗电子病历数据和命名实体识别的label数据。4.根据权利要求3所述的医疗事件的抽取方法，其特征在于，所述方法还包括：训练事件论元填充模型，得到所述训练完成的事件论元填充模型，其中，所述训练事件论元填充模型，得到所述训练完成的事件论元填充模型包括：将所述医疗电子病历数据、所述预设事件论元角色的label数据以及所述命名实体识别模型得到的实体抽取结果，输入所述事件论元填充模型；通过所述事件论元填充模型中的BERT提取所述医疗电子病历数据中的词向量；对所述词向量通过最大池化生成实体向量，对所述实体向量叠加实体位置编码，得到叠加实体位置编码的所述实体向量，将叠加实体位置编码的所述实体向量输入实体向量编码器中进行编码，得到编码后的所述实体向量；将编码后的所述实体向量与论元角色编码进行叠加，得到叠加数据，将所述叠加数据与论元缓存队列进行拼接，输入事件论元解码器，通过所述事件论元解码器依据预设阈值从拼接的所述叠加数据与论元缓存队列中提取对应事件论元角色的实体向量，保存至所述论元缓存队列中，在所述论元缓存队列中加入特殊向量进行分隔，并根据所述预设事件论元角色的label数据计算损失函数，计算出的损失函数取平均值后进行反向传播；直至所述
事件论元填充模型收敛，得到所述训练完成的事件论元填充模型；其中，所述论元缓存队列，用于记录已提取出的论元。5.根据权利要求4所述的医疗事件的抽取方法，其特征在于，所述通过所述事件论元填充模型中的BERT提取所述医疗电子病历数据中的词向量包括：对输入的所述医疗电子病历数据进行tokenize分词，通过在所述医疗电子病历数据的头尾加上特殊token[cls]和[sep]，得到文本W＝[w1,w2……
w
n
]，其中，w
t
为在文本t位置的token，n为文本进行分词后的token总数，把W输入到BERT后得到所述词向量表示H＝[h1,h2,
…
,...

【专利技术属性】
技术研发人员：章步镐，蒋立靓，叶衍统，李永强，冯远静，孔桦桦，罗鹏，
申请(专利权)人：银江技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人