一种医疗检查预训练模型构建方法及识别方法技术

技术编号:36772248 阅读:8 留言:0更新日期:2023-03-08 21:48
本发明专利技术公开了一种医疗检查预训练模型构建方法,包括:利用医疗检查相关报告的数据构建训练原始数据;对训练原始数据的实体层面和数字层面的随机mask掩码处理,得到训练数据;采用Transformer Encoder为基础结构搭建MedExBERT模型;添加损失计算函数,所述失计算函数包括交叉熵损失函数和数值损失函数;利用训练数据对MedExBERT模型进行训练,得到医疗检查预训练模型。通过上述方案,本发明专利技术具有逻辑简单、准确可靠等优点,在医疗检查文本识别技术领域具有很高的实用价值和推广价值。技术领域具有很高的实用价值和推广价值。技术领域具有很高的实用价值和推广价值。

【技术实现步骤摘要】
一种医疗检查预训练模型构建方法及识别方法


[0001]本专利技术涉及医疗检查文本识别
,尤其是一种医疗检查预训练模型构建方法及识别方法。

技术介绍

[0002]医疗检查相关的报告、文本是医疗文本的重要组成部分,对于医疗检查文本进行自动结构化解析是实现人工智能辅助疾病诊疗的基础。然而由于医疗文本独特的子语言特性以及医疗检查描述的复杂性、多样性等原因,目前可用于医疗检查文本结构化的开源中文预训练模型无法准确对医疗检查文本形成表征,特别是对于医疗检查相关的实体以及检查结果指标无法形成较为精准的感知,导致文本结构化结果准确率低、解析效果差。
[0003]自从谷歌团队基于Transformer的Encoder架构发布BERT预训练模型以来,基于大模型的预训练

微调策略已经成为NLP领域的标准范式。就生物医疗领域来讲,目前已发布的类似BERT的预训练语言模型多达数十个,其中包括利用大规模生物医学相关研究文献语料进行预训练的BioBERT、PubMedBERT、SciBERT等,以及利用大规模临床文本语料进行预训练的G

BERT、Med

BERT等。但这些预训练模型的缺点在于,都是利用英文语料进行模型预训练,无法适配中文医学文本处理任务。而对于中文生物医学文本领域,目前已有MC

BERT、PCL

MedBERT等。但这些预训练语言模型适用于泛生物医学领域,针对医疗检查、医疗诊断等细分领域的文本处理适配效果不佳。并且,目前已有BERT类的预训练模型所采用的简单随机词mask或随机实体mask方法,没有对医疗指标类相关实体(如“25%”、“7.4h”、“2.5g/L”等)形成较为准确的语义感知和建模,在下游任务时会使医疗指标类实体产生较大的语义偏移,当用于真实世界的医疗文本处理时会产生解析性能不够好等问题。
[0004]因此,急需要提出一种逻辑简单、准确可靠的一种医疗检查预训练模型构建方法及识别方法

技术实现思路

[0005]针对上述问题,本专利技术的目的在于提供一种医疗检查预训练模型构建方法及识别方法,本专利技术采用的技术方案如下:
[0006]第一部分:本技术提供了一种医疗检查预训练模型构建方法,其包括以下步骤:
[0007]利用医疗检查相关报告的数据构建训练原始数据;
[0008]对训练原始数据的实体层面和数字层面的随机mask掩码处理,得到训练数据;
[0009]采用Transformer Encoder为基础结构搭建MedExBERT模型;
[0010]添加损失计算函数,所述失计算函数包括交叉熵损失函数和数值损失函数;
[0011]利用训练数据对MedExBERT模型进行训练,得到医疗检查预训练模型。
[0012]第二部分,本技术提供了一种医疗检查文本的识别方法,其采用医疗检查预训练模型构建方法构建的网络模型进行识别。
[0013]第三部分,本技术提供了一种医疗检查预训练模型构建装置,其包括:
[0014]训练原始数据解析模块,收集医疗检查相关报告的数据构建训练原始数据;
[0015]预处理模块,与训练原始数据解析模块连接,对训练原始数据的实体层面和数字层面的随机mask掩码处理,得到训练数据;
[0016]模型搭建模块,采用Transformer Encoder为基础结构搭建MedExBERT模型;
[0017]损失函数添加模块,与模型搭建模块连接,添加损失计算函数,所述失计算函数包括交叉熵损失函数和数值损失函数;
[0018]训练模块,与预处理模块、模型搭建模块和损失函数添加模块连接,利用训练数据对MedExBERT模型进行训练,得到医疗检查预训练模型。
[0019]第四部分,本技术提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现医疗检查预训练模型构建方法。
[0020]第五部分,本技术提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现权要求1至4任一项项所述的一种医疗检查预训练模型构建方法的步骤。
[0021]与现有技术相比,本专利技术具有以下有益效果:
[0022](1)本专利技术提出了针对医疗检查数字实体的number mask方法,其中包括针对“少许”、“多数”等类数字实体描述的规范化后mask并预测;另外,本专利技术提出了针对医疗指标的数值loss,精准捕捉指标的差异化,增加预训练模型对于医学深度知识的理解;
[0023](2)本专利技术采用数值损失函数对量形容词类数据进行计算,精准捕捉指标数值的差异性,增加大模型对于医学深度知识的理解;
[0024]综上所述,本专利技术具有逻辑简单、准确可靠等优点,在医疗检查文本识别
具有很高的实用价值和推广价值。
附图说明
[0025]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需使用的附图作简单介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对保护范围的限定,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0026]图1为本专利技术的逻辑流程图。
[0027]图2为本专利技术的模型架构图。
[0028]图3为本专利技术的数值损失函数计算流程图。
具体实施方式
[0029]为使本申请的目的、技术方案和优点更为清楚,下面结合附图和实施例对本专利技术作进一步说明,本专利技术的实施方式包括但不限于下列实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]实施例
[0031]如图1至图3所示,本实施例提供了一种医疗检查预训练模型构建方法,其包括以
下步骤:
[0032]第一步,利用医疗检查相关报告的数据构建训练原始数据,主要涉及对各种类型医疗检查相关报告的数据清洗、处理和集成。包括对体检报告、超声检查报告、穿刺检查报告、血常规报告、心电图报告等检查报告文本字段的提取、清洗,并集成形成原始数据
[0033]第二步,对训练原始数据的实体层面和数字层面的随机mask掩码处理,得到训练数据。主要涉及对原始数据进行实体层面和数字层面的随机mask掩码处理。其中,实体层面主要通过构建实体字典(包括医疗检查相关的检查项目实体、检查描述实体、检查诊断实体等)进行训练数据中的实体匹配;数字层面掩码主要通过构建正则表达式对训练数据中的数字及单位组合实体(如“25%”、“7.4h”、“2.5g/L”、“13~18个”等描述)进行匹配;同时,在数字掩码层面,针对“未见”、“少许”、“多数”等类数字表达实体进行数字规范化后再掩码匹配,规范化操作主要通过构建类数字规范化字典完成。
[0034]从实体层面及数字层面对原始训练数据中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗检查预训练模型构建方法,其特征在于,包括以下步骤:利用医疗检查相关报告的数据构建训练原始数据;对训练原始数据的实体层面和数字层面的随机mask掩码处理,得到训练数据;采用Transformer Encoder为基础结构搭建MedExBERT模型;添加损失计算函数,所述失计算函数包括交叉熵损失函数和数值损失函数;利用训练数据对MedExBERT模型进行训练,得到医疗检查预训练模型。2.根据权利要求1所述的一种医疗检查预训练模型构建方法,其特征在于,所述损失计算函数添加包括以下步骤:S1,对于医学名词文字描述类型的mask词,通过交叉熵函数计算真实值与预测值的损失,其表达式为:其中,y、y

分别表示当前mask词的真实值和预测值,C表示字典大小,y
i
和y

i
分别为mask词为字典第i个词的真实概率值和预测概率值;S2,对于计量数字类数据,采用交叉熵损失函数和数值损失函数的结合,其表达式为:Loss(y,y

)=λ
×
CELoss(y,y

)+(1

λ)
×
NumberLoss(n,n

)NumberLoss(n,n

)=|n

n

|其中,λ表示交叉熵损失权重;n和n

分别表示y和y

去掉单位后获得的数字值;S3,对于量形容词类数据,采用数值损失函数进行计算,其表达式为:n
i
=MLP(h
i
)w
i
=W*one_hot(x
i
)其中,x
i
和h
i
分别表示第i个要预测位置的数值以及该位置经过预训练模型后的隐层张量;one_hot表示独热编码算法,W表示可学习参数,w
i
表示根据x
i
所属类型获得的权重张量;MLP表示多层感知机网络;v
i
表...

【专利技术属性】
技术研发人员:姚佳刘忠禹殷晋
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1