当前位置: 首页 > 专利查询>之江实验室专利>正文

一种生成医疗文本提取模版方法技术

技术编号:39492410 阅读:12 留言:0更新日期:2023-11-24 11:14
本说明书公开了一种生成医疗文本提取模版方法,从上述方法可以看出,本申请将若干医疗文本输入训练完成的提取模型,得到提取模型输出的若干医疗文本分别对应的候选提取模版

【技术实现步骤摘要】
一种生成医疗文本提取模版方法、装置、介质及设备


[0001]本说明书涉及计算机
,尤其涉及一种生成医疗文本提取模版方法

装置

介质及设备


技术介绍

[0002]随着医疗数字化建设的推进,医疗文本呈现爆炸式增长的趋势,这些医疗文本中蕴含着丰富的医疗知识和信息,但是多以非结构化的自然语言形式存在,难以直接进行分析和利用,因此对非结构化医疗文本中信息的提取与利用十分重要

[0003]在现有技术中,由专家根据医疗领域的特点和需求,编写相应的规则来描述文本中的实体和关系,并整理成对应的提取模版,以供算法可依据提取模版进行特定信息的自动提取

[0004]但是,这种方法依赖于专家知识和领域规则的人工定义,人力成本昂贵,并且对于复杂和多样化的医疗文本可能会存在覆盖率和泛化性无法保证的情况

为此,本说明书提供了一种生成医疗文本提取模版方法


技术实现思路

[0005]本说明书提供一种生成医疗文本提取模版方法

装置

介质及设备,以部分的解决现有技术存在的上述问题

[0006]本说明书采用下述技术方案:本说明书提供了一种生成医疗文本提取模版方法,包括:获取若干医疗文本;将所述若干医疗文本分别输入训练完成的提取模型,得到所述提取模型输出的所述若干医疗文本分别对应的候选提取模版,所述候选提取模版中包含的元素至少包括:识别出的医疗文本中的实体类型和实体类型关系;针对各候选提取模版中的每个元素,根据该元素在各候选提取模版中出现的频率,确定该元素的代表性,根据该元素与其他元素共同包含在同一候选提取模版的次数,确定该元素的可靠性;根据该元素的代表性以及可靠性,确定该元素的置信度;根据预设的阈值,删除置信度低于所述阈值的各元素,确定过滤后的各候选提取模版;根据各候选提取模版包含的元素的可聚合度,对所述各候选提取模版进行聚合,根据聚合结果确定目标提取模版,其中,所述可聚合度表征元素之间的关联关系的强弱,所述目标提取模版用于对待提取信息的医疗文本进行信息提取

[0007]可选的,采用下述方法训练所述提取模型,其中:从通用语料库中获取若干训练文本,所述训练文本的标注包含所述训练文本中的实体类型和实体类型关系;
根据所述训练文本以及所述训练文本的标注,对待训练的提取模型进行预训练,确定预训练的提取模型;确定已标注的医疗样本,所述医疗样本的标注包含所述医疗样本中的实体类型和实体类型关系;根据所述医疗样本以及所述医疗样本的标注,对所述预训练的提取模型进行微调,确定训练完成的提取模型

[0008]可选的,根据该元素在各候选提取模版中出现的频率,确定该元素的代表性,具体包括:确定各候选提取模版中该元素的数量,以及各候选提取模版中各元素的总数;根据该元素的数量在所述总数中的占比,确定该元素的代表性

[0009]可选的,根据该元素与其他元素共同包含在同一候选提取模版的次数,确定该元素的可靠性,具体包括:初始化各候选提取模版的各元素的可靠性;轮询各候选提取模版中的各元素,针对轮询到的每个元素,分别确定各其他元素与该元素在各候选模版中共现的共现次数;根据与该元素共现的其他元素的可靠性以及确定出的各共现次数,确定该元素对应的共现度;根据该元素的可靠性与所述共现度之比,更新该元素的可靠性;判断各元素更新次数是否均达到预设次数;若是,则确定各元素最后更新的可靠性;若否,则继续对各元素的可靠性进行更新

[0010]可选的,根据该元素的可靠性与所述共现度之比,更新该元素的可靠性,具体包括:确定该元素当前的可靠性与所述共现度的比值,作为关联比值;根据预设关联权重,对所述关联比值以及初始可靠性加权求和;根据加权结果,更新该元素的可靠性

[0011]可选的,根据该元素的代表性以及可靠性,确定该元素的置信度,具体包括:根据预设的代表性权重

预设的可靠性权重

该元素的代表性以及该元素的可靠性,对该元素代表性以及该元素的可靠性加权求和;确定加权结果,为该元素的置信度

[0012]可选的,根据各候选提取模版包含的元素的可聚合度,对所述各候选提取模版进行聚合,根据聚合结果确定目标提取模版,具体包括:针对每两个候选提取模版,根据相似性度量方法确定所述两个候选提取模板之间的元素的可聚合度;根据所述两个候选提取模版之间的元素的可聚合度,确定所述两个候选提取模版之间的元素的可聚合度之和,作为聚合值;分别确定所述两个候选提取模版中元素数量,确定元素数量之积,作为元素值;确定所述聚合值和元素值的比值,作为所述两个候选提取模版的可聚合度;针对每一个候选提取模版,根据确定出的各可聚合度,与该候选提取模版可聚合
度最高的候选提取模版进行聚合,得到所述目标提取模版

[0013]本说明书提供了一种生成医疗文本提取模版装置,包括:获取模块,用于获取若干医疗文本;模版提取模块,用于将所述若干医疗文本分别输入训练完成的提取模型,得到所述提取模型输出的所述若干医疗文本分别对应的候选提取模版,所述候选提取模版中包含的元素至少包括:识别出的医疗文本中的实体类型和实体类型关系;第一确定模块,用于针对各候选提取模版中的每个元素,根据该元素在各候选提取模版中出现的频率,确定该元素的代表性,根据该元素与其他元素共同包含在同一候选提取模版的次数,确定该元素的可靠性;第二确定模块,用于根据该元素的代表性以及可靠性,确定该元素的置信度;过滤模块,用于根据预设的阈值,删除置信度低于所述阈值的各元素,确定过滤后的各候选提取模版;聚合模块,用于根据各候选提取模版包含的元素的可聚合度,对所述各候选提取模版进行聚合,根据聚合结果确定目标提取模版,其中,所述可聚合度表征元素之间的关联关系的强弱,所述目标提取模版用于对待提取信息的医疗文本进行信息提取

[0014]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述生成医疗文本提取模版方法

[0015]本说明书提供了一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述生成医疗文本提取模版方法

[0016]本说明书采用的上述至少一个技术方案能够达到以下有益效果:本说明书提供的生成医疗文本提取模版方法,获取若干医疗文本,将若干医疗文本分别输入训练完成的提取模型,得到提取模型输出的若干医疗文本分别对应的候选提取模版

然后,从每个元素在各候选提取模版中出现的频率,确定每个元素的代表性

根据每个元素与其他元素共同包含在同一候选提取模版的次数,确定每个元素的可靠性

根据每个元素的代表性以及可靠性,确定每个元素的置信度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种生成医疗文本提取模版方法,其特征在于,包括:获取若干医疗文本;将所述若干医疗文本分别输入训练完成的提取模型,得到所述提取模型输出的所述若干医疗文本分别对应的候选提取模版,所述候选提取模版中包含的元素至少包括:识别出的医疗文本中的实体类型和实体类型关系;针对各候选提取模版中的每个元素,根据该元素在各候选提取模版中出现的频率,确定该元素的代表性,根据该元素与其他元素共同包含在同一候选提取模版的次数,确定该元素的可靠性;根据该元素的代表性以及可靠性,确定该元素的置信度;根据预设的阈值,删除置信度低于所述阈值的各元素,确定过滤后的各候选提取模版;根据各候选提取模版包含的元素的可聚合度,对所述各候选提取模版进行聚合,根据聚合结果确定目标提取模版,其中,可聚合度表征元素之间的关联关系的强弱,所述目标提取模版用于对待提取信息的医疗文本进行信息提取
。2.
如权利要求1所述的方法,其特征在于,采用下述方法训练所述提取模型,其中:从通用语料库中获取若干训练文本,所述训练文本的标注包含所述训练文本中的实体类型和实体类型关系;根据所述训练文本以及所述训练文本的标注,对待训练的提取模型进行预训练,确定预训练的提取模型;确定已标注的医疗样本,所述医疗样本的标注包含所述医疗样本中的实体类型和实体类型关系;根据所述医疗样本以及所述医疗样本的标注,对所述预训练的提取模型进行微调,确定训练完成的提取模型
。3.
如权利要求1所述的方法,其特征在于,根据该元素在各候选提取模版中出现的频率,确定该元素的代表性,具体包括:确定各候选提取模版中该元素的数量,以及各候选提取模版中各元素的总数;根据该元素的数量在所述总数中的占比,确定该元素的代表性
。4.
如权利要求1所述的方法,其特征在于,根据该元素与其他元素共同包含在同一候选提取模版的次数,确定该元素的可靠性,具体包括:初始化各候选提取模版的各元素的可靠性;轮询各候选提取模版中的各元素,针对轮询到的每个元素,分别确定各其他元素与该元素在各候选模版中共现的共现次数;根据与该元素共现的其他元素的可靠性以及确定出的各共现次数,确定该元素对应的共现度;根据该元素的可靠性与所述共现度之比,更新该元素的可靠性;判断各元素更新次数是否均达到预设次数;若是,则确定各元素最后更新的可靠性;若否,则继续对各元素的可靠性进行更新
。5.
如权利要求4所述的方法,其特征在于,根据该元素的可靠性与所述共现度之比,更新该元素的可靠性,具体包括:
确定该元素当前的可靠性与所述共现度的比值,作为关联比值;根据预设关联权重,对所述关联比值以及初始可靠性加权求和;根据加权结果,更新...

【专利技术属性】
技术研发人员:史黎鑫李劲松杨宗峰辛然周天舒田雨
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1