【技术实现步骤摘要】
一种生成医疗文本提取模版方法、装置、介质及设备
[0001]本说明书涉及计算机
,尤其涉及一种生成医疗文本提取模版方法
、
装置
、
介质及设备
。
技术介绍
[0002]随着医疗数字化建设的推进,医疗文本呈现爆炸式增长的趋势,这些医疗文本中蕴含着丰富的医疗知识和信息,但是多以非结构化的自然语言形式存在,难以直接进行分析和利用,因此对非结构化医疗文本中信息的提取与利用十分重要
。
[0003]在现有技术中,由专家根据医疗领域的特点和需求,编写相应的规则来描述文本中的实体和关系,并整理成对应的提取模版,以供算法可依据提取模版进行特定信息的自动提取
。
[0004]但是,这种方法依赖于专家知识和领域规则的人工定义,人力成本昂贵,并且对于复杂和多样化的医疗文本可能会存在覆盖率和泛化性无法保证的情况
。
为此,本说明书提供了一种生成医疗文本提取模版方法
。
技术实现思路
[0005]本说明书提供一种生成医疗文本提取模版方法
、
装置
、
介质及设备,以部分的解决现有技术存在的上述问题
。
[0006]本说明书采用下述技术方案:本说明书提供了一种生成医疗文本提取模版方法,包括:获取若干医疗文本;将所述若干医疗文本分别输入训练完成的提取模型,得到所述提取模型输出的所述若干医疗文本分别对应的候选提取模版,所述候选提取模版中包含的元素至少包括:识别出的医疗文本中的实体类 ...
【技术保护点】
【技术特征摘要】
1.
一种生成医疗文本提取模版方法,其特征在于,包括:获取若干医疗文本;将所述若干医疗文本分别输入训练完成的提取模型,得到所述提取模型输出的所述若干医疗文本分别对应的候选提取模版,所述候选提取模版中包含的元素至少包括:识别出的医疗文本中的实体类型和实体类型关系;针对各候选提取模版中的每个元素,根据该元素在各候选提取模版中出现的频率,确定该元素的代表性,根据该元素与其他元素共同包含在同一候选提取模版的次数,确定该元素的可靠性;根据该元素的代表性以及可靠性,确定该元素的置信度;根据预设的阈值,删除置信度低于所述阈值的各元素,确定过滤后的各候选提取模版;根据各候选提取模版包含的元素的可聚合度,对所述各候选提取模版进行聚合,根据聚合结果确定目标提取模版,其中,可聚合度表征元素之间的关联关系的强弱,所述目标提取模版用于对待提取信息的医疗文本进行信息提取
。2.
如权利要求1所述的方法,其特征在于,采用下述方法训练所述提取模型,其中:从通用语料库中获取若干训练文本,所述训练文本的标注包含所述训练文本中的实体类型和实体类型关系;根据所述训练文本以及所述训练文本的标注,对待训练的提取模型进行预训练,确定预训练的提取模型;确定已标注的医疗样本,所述医疗样本的标注包含所述医疗样本中的实体类型和实体类型关系;根据所述医疗样本以及所述医疗样本的标注,对所述预训练的提取模型进行微调,确定训练完成的提取模型
。3.
如权利要求1所述的方法,其特征在于,根据该元素在各候选提取模版中出现的频率,确定该元素的代表性,具体包括:确定各候选提取模版中该元素的数量,以及各候选提取模版中各元素的总数;根据该元素的数量在所述总数中的占比,确定该元素的代表性
。4.
如权利要求1所述的方法,其特征在于,根据该元素与其他元素共同包含在同一候选提取模版的次数,确定该元素的可靠性,具体包括:初始化各候选提取模版的各元素的可靠性;轮询各候选提取模版中的各元素,针对轮询到的每个元素,分别确定各其他元素与该元素在各候选模版中共现的共现次数;根据与该元素共现的其他元素的可靠性以及确定出的各共现次数,确定该元素对应的共现度;根据该元素的可靠性与所述共现度之比,更新该元素的可靠性;判断各元素更新次数是否均达到预设次数;若是,则确定各元素最后更新的可靠性;若否,则继续对各元素的可靠性进行更新
。5.
如权利要求4所述的方法,其特征在于,根据该元素的可靠性与所述共现度之比,更新该元素的可靠性,具体包括:
确定该元素当前的可靠性与所述共现度的比值,作为关联比值;根据预设关联权重,对所述关联比值以及初始可靠性加权求和;根据加权结果,更新...
【专利技术属性】
技术研发人员:史黎鑫,李劲松,杨宗峰,辛然,周天舒,田雨,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。