模型的训练方法、要素解析方法、装置、设备及可读介质制造方法及图纸

技术编号:38009068 阅读:8 留言:0更新日期:2023-06-30 10:28
本发明专利技术公开了一种模型的训练方法、要素解析方法、装置、设备及可读介质;该模型的训练方法包括:基于医学文本和提示模板构建输入

【技术实现步骤摘要】
模型的训练方法、要素解析方法、装置、设备及可读介质


[0001]本专利技术是关于人工智能
,特别是关于一种医学文本要素解析模型的训练方法、医学文本要素解析方法、医学文本要素装置、电子设备及计算机可读介质。

技术介绍

[0002]随着医院信息化系统以及互联网医院在线问诊的发展和普及,积累了大量医生和患者自诉的医学文本数据。如何借助人工智能中的自然语言处理(Natural Language Processing,NLP)技术,对这些医学文本中所隐含的细粒度要素信息进行准确的解析和抽取成为一个亟待解决的问题。
[0003]因此,针对上述技术问题,有必要提供一种模型的训练方法、要素解析方法、装置、设备及可读介质。

技术实现思路

[0004]本专利技术的目的在于提供一种模型的训练方法、要素解析方法、装置、设备及可读介质,其能够准确的解析和抽取医学文本中的细粒度要素信息。
[0005]为实现上述目的,本专利技术提供的技术方案如下:
[0006]第一方面,本专利技术提供了一种医学文本要素解析模型的训练方法,其包括:
[0007]基于医学文本和提示模板构建输入

输出文本对,其中,所述提示模板包括细粒度分类标签,所述文本对中的输入文本缺少与所述细粒度分类标签对应的细粒度要素信息,所述文本对中的输出文本填充与所述细粒度分类标签对应的细粒度要素信息;
[0008]以所述文本对为预训练语言模型的输入和输出,基于预设的损失函数微调所述预训练语言模型中与所述提示模板对应的参数,所述预训练语言模型用于预测输入文本中缺失的细粒度要素信息。
[0009]在一个或多个实施方式中,所述训练方法具体包括:
[0010]构建包括细粒度分类标签的提示模板,其中,与所述细粒度分类标签对应的细粒度要素信息以掩码进行表示,所述细粒度分类标签包括疾病大类、疾病亚型、疾病分期、是否转移、转移部位、治疗方案中的至少一个;
[0011]将所述医学文本与所述提示模板进行拼接,得到所述输入

输出文本对中的输入文本。
[0012]在一个或多个实施方式中,所述训练方法具体包括:
[0013]提取所述医学文本中与所述细粒度分类标签对应的细粒度要素信息;
[0014]将所述提示模板中表示细粒度要素信息的所述掩码,替换为所述提取的细粒度要素信息;
[0015]将所述医学文本与所述替换后的提示模板进行拼接,得到所述输入

输出文本对中的输出文本。
[0016]在一个或多个实施方式中,所述训练方法还包括:
[0017]通过病历获取原始医学文本;
[0018]对所述原始医学文本进行清洗处理及纠错处理,得到所述医学文本。
[0019]在一个或多个实施方式中,所述清洗处理具体包括:
[0020]英文简写替换、阿拉伯数字到中文数字的转化、中文拼音替换、罗马数字规范化、去除重复字符、遗漏字符补齐。
[0021]在一个或多个实施方式中,所述纠错处理具体包括:
[0022]检测所述原始医学文本中的错误字词;
[0023]基于历史错误行为,召回所述错误字词的纠错候选字词;
[0024]选取所述纠错候选字词中正确概率最大的字词替换所述错误字词。
[0025]在一个或多个实施方式中,所述预训练语言模型包括基于Transformer

Encoder的BERT模型、基于Transformer

Decoder的GPT模型和基于Transformer

Encoder

Decoder的BART模型中的至少一种。
[0026]第二方面,本专利技术提供了一种医学文本要素解析方法,其包括:
[0027]对待解析医学文本进行预处理;
[0028]采用如前所述的训练方法训练得到的医学文本要素解析模型,对所述预处理后的待解析医学文本进行解析,得到解析结果;
[0029]对所述解析结果进行后处理,得到所述待解析医学文本的细粒度要素信息。
[0030]在一个或多个实施方式中,所述预处理包括清洗处理及纠错处理,所述后处理包括归一化处理及细粒度分类标签与细粒度要素信息之间的映射处理。
[0031]第三方面,本专利技术提供了一种医学文本要素解析装置,其包括:
[0032]预处理模块,用于对待解析医学文本进行预处理;
[0033]如前所述的训练方法训练得到的医学文本要素解析模型,用于对所述预处理模块预处理后的待解析医学文本进行解析,以得到解析结果;
[0034]后处理模块,用于对所述解析结果进行后处理,以得到所述待解析医学文本的细粒度要素信息输出结果。
[0035]第四方面,本专利技术提供了一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如前所述的方法。
[0036]第五方面,本专利技术提供了一种计算机可读介质,其特征在于,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前所述的方法。
[0037]与现有技术相比,本专利技术提供的医学文本要素解析模型的训练方法,基于医学文本和提示模板构建由缺失细粒度要素信息的输入文本与填充细粒度要素信息的输出文本,组成的输入

输出文本对,并利用该输入

输出文本对对预训练语言模型的参数进行提示性微调,从而可得到能够解析生成医学文本中的细粒度要素信息的模型,且得到的模型能够准确的解析和抽取医学文本中的细粒度要素信息。
附图说明
[0038]图1是本专利技术一实施方式中的实施环境的示意图;
[0039]图2是本专利技术一实施方式中的医学文本要素解析模型的训练方法流程图;
[0040]图3是本专利技术一实施方式中医学文本要素解析方法流程图;
[0041]图4是本专利技术一实施方式中医学文本要素解析的结构框图;
[0042]图5是本专利技术一实施方式中电子设备的结构框图。
具体实施方式
[0043]下面结合附图,对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。
[0044]除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
[0045]为了方便理解本专利技术的技术方案,下面首先对本专利技术中可能出现的技术术语进行详细解释。
[0046]人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学文本要素解析模型的训练方法,其特征在于,包括:基于医学文本和提示模板构建输入

输出文本对,其中,所述提示模板包括细粒度分类标签,所述文本对中的输入文本缺少与所述细粒度分类标签对应的细粒度要素信息,所述文本对中的输出文本填充与所述细粒度分类标签对应的细粒度要素信息;以所述文本对为预训练语言模型的输入和输出,基于预设的损失函数微调所述预训练语言模型中与所述提示模板对应的参数,所述预训练语言模型用于预测输入文本中缺失的细粒度要素信息。2.如权利要求1所述的医学文本要素解析模型的训练方法,其特征在于,所述训练方法具体包括:构建包括细粒度分类标签的提示模板,其中,与所述细粒度分类标签对应的细粒度要素信息以掩码进行表示,所述细粒度分类标签包括疾病大类、疾病亚型、疾病分期、是否转移、转移部位、治疗方案中的至少一个;将所述医学文本与所述提示模板进行拼接,得到所述输入

输出文本对中的输入文本。3.如权利要求2所述的医学文本要素解析模型的训练方法,其特征在于,所述训练方法具体包括:提取所述医学文本中与所述细粒度分类标签对应的细粒度要素信息;将所述提示模板中表示细粒度要素信息的所述掩码,替换为所述提取的细粒度要素信息;将所述医学文本与所述替换后的提示模板进行拼接,得到所述输入

输出文本对中的输出文本。4.如权利要求1所述的医学文本要素解析模型的训练方法,其特征在于,所述训练方法还包括:通过病历获取原始医学文本;对所述原始医学文本进行清洗处理及纠错处理,得到所述医学文本。5.如权利要求4所述的医学文本要素解析模型的训练方法,其特征在于,所述清洗处理具体包括:英文简写替换、阿拉伯数字到中文数字的转化、中文拼音替换、罗马数字规范化、去除重复字符、遗漏字符补齐。6.如权利要求4所述的医学文本要素解析模型的训练方法,其特征在于,所述纠错处理具体包括:检测...

【专利技术属性】
技术研发人员:王永明赵周剑司婧王育清
申请(专利权)人:浙江太美医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1