医学应用模型的预训练方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32646713 阅读:10 留言:0更新日期:2022-03-12 18:30
本公开涉及一种医学应用模型的预训练方法、装置、存储介质及电子设备,该方法包括:获取预训练语料,所述预训练语料包括疾病的名称文本、描述类型的名称文本、以及所述疾病在所述描述类型下的描述文本;基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据;根据所述训练数据对BERT模型进行MLM训练,以得到预训练完成的BERT模型。采用本公开这种方式,能够增强BERT模型对医学领域的自然语言的语义理解能力,从而提升BERT模型对医学领域的自然语言的编码准确性。的编码准确性。的编码准确性。

【技术实现步骤摘要】
医学应用模型的预训练方法、装置、存储介质及电子设备


[0001]本公开涉及自然语言处理
,具体地,涉及一种医学应用模型的预训练方法、装置、存储介质及电子设备。

技术介绍

[0002]BERT(Bidirectional Encoder Representation from Transformers)是一种预训练的语言表征模型。预训练BERT模型,引入了MLM(Masked Language Model,掩码语言模型)以及NSP(Next Sentence Prediction,下一句预测)两个预训练任务,并在大规模语料上进行预训练(Pre

training)。在具体应用预训练完成的BERT模型的场景中,使用少量标注语料进行微调(Fine

tuning)即可完成文本分类、序列标注、机器翻译、阅读理解、知识问答等下游NLP(Natural Language Processing)任务。
[0003]相关技术中,为了保证BERT模型的通用性,训练BERT模型的大规模语料需覆盖各个知识领域,主要包括常识(Commonsense Knowledge)和开放领域知识(Open Domain Knowledge)。基于这样的大规模语料训练出来的预训练BERT模型可用于解决不同领域的自然语言问题。然而,采用这种方式预训练出来的BERT模型在一些专业领域(Specialized Domain Knowledge)中表现一般,无法很好的解决专业领域内的自然语言处理问题。例如,在医学领域中,因为医学领域专业性极强且容错率低,所以目前的预训练BERT模型在医学领域中适用性不好,无法解决医学领域研究场景下的自然语言问题。

技术实现思路

[0004]本公开的目的是提供一种医学应用模型的预训练方法、装置、存储介质及电子设备,以解决相关技术中存在的问题。
[0005]为了实现上述目的,本公开实施例的第一部分提供一种医学应用模型的预训练方法,所述方法包括:
[0006]获取预训练语料,所述预训练语料包括疾病的名称文本、描述类型的名称文本、以及所述疾病在所述描述类型下的描述文本;
[0007]基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据;
[0008]根据所述训练数据对BERT模型进行MLM训练,以得到预训练完成的BERT模型。
[0009]可选地,所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据,包括:
[0010]在所述描述文本中包括所述疾病的名称文本和所述描述类型的名称文本的情况下,对所述描述文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,以得到所述训练数据。
[0011]可选地,所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据,包括:
[0012]在所述描述文本中不包括所述疾病的名称文本和所述描述类型的名称文本的情况下,构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本;
[0013]对所述问题文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,得到目标问题文本;
[0014]将所述目标问题文本与所述描述文本进行拼接,以得到所述训练数据。
[0015]可选地,所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据,包括:
[0016]在所述描述文本中不包括所述疾病的名称文本或所述描述类型的名称文本的情况下,构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本;
[0017]将所述问题文本和所述描述文本进行拼接,得到待遮蔽文本;
[0018]对所述待遮蔽文本中所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,以得到所述训练数据。
[0019]可选地,所述将所述目标问题文本与所述描述文本进行拼接,以得到所述训练数据,包括:
[0020]将所述目标问题文本拼接在所述描述文本之前,以得到所述训练数据。
[0021]可选地,所述将所述问题文本和所述描述文本进行拼接,得到待遮蔽文本,包括:
[0022]将所述问题文本拼接在所述描述文本之前,以得到所述待遮蔽文本。
[0023]可选地,所述根据所述训练数据对BERT模型进行MLM训练,包括:
[0024]将所述训练数据输入所述BERT模型,得到所述BERT模型输出的预测向量信息,所述预测向量信息是针对所述训练数据中被遮蔽的位置上的目标文本进行向量预测的结果;
[0025]根据所述预测向量信息和所述目标文本的真实向量信息计算损失信息;
[0026]根据所述损失信息调整所述BERT模型的学习参数。
[0027]本公开实施例的第二部分提供一种医学应用模型的预训练装置,所述装置包括:
[0028]获取模块,用于获取预训练语料,所述预训练语料包括疾病的名称文本、描述类型的名称文本、以及所述疾病在所述描述类型下的描述文本;
[0029]预处理模块,用于基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据;
[0030]训练模块,用于根据所述训练数据对BERT模型进行MLM训练,以得到预训练完成的BERT模型。
[0031]可选地,所述预处理模块包括:
[0032]第一遮蔽子模块,用于在所述描述文本中包括所述疾病的名称文本和所述描述类型的名称文本的情况下,对所述描述文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,以得到所述训练数据。
[0033]可选地,所述预处理模块包括:
[0034]第一构建子模块,用于在所述描述文本中不包括所述疾病的名称文本和所述描述类型的名称文本的情况下,构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本;
[0035]第二遮蔽子模块,用于对所述问题文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,得到目标问题文本;
[0036]第一拼接子模块,用于将所述目标问题文本与所述描述文本进行拼接,以得到所述训练数据。
[0037]可选地,所述预处理模块包括:
[0038]第二构建子模块,用于在所述描述文本中不包括所述疾病的名称文本或所述描述类型的名称文本的情况下,构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本;
[0039]第二拼接子模块,用于将所述问题文本和所述描述文本进行拼接,得到待遮蔽文本;
[0040]第三遮蔽子模块,用于对所述待遮蔽文本中所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,以得到所述训练数据。
[0041]可选地,所述第一拼接子模块,具体用于将所述目标问题文本拼接在所述描述文本之前,以得到所述训练数据。
[0042]可选地,所述第二拼接子模块,具体用于将所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学应用模型的预训练方法,其特征在于,所述方法包括:获取预训练语料,所述预训练语料包括疾病的名称文本、描述类型的名称文本、以及所述疾病在所述描述类型下的描述文本;基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据;根据所述训练数据对BERT模型进行MLM训练,以得到预训练完成的BERT模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据,包括:在所述描述文本中包括所述疾病的名称文本和所述描述类型的名称文本的情况下,对所述描述文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,以得到所述训练数据。3.根据权利要求1所述的方法,其特征在于,所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据,包括:在所述描述文本中不包括所述疾病的名称文本和所述描述类型的名称文本的情况下,构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本;对所述问题文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,得到目标问题文本;将所述目标问题文本与所述描述文本进行拼接,以得到所述训练数据。4.根据权利要求1所述的方法,其特征在于,所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理,以得到训练数据,包括:在所述描述文本中不包括所述疾病的名称文本或所述描述类型的名称文本的情况下,构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本;将所述问题文本和所述描述文本进行拼接,得到待遮蔽文本;对所述待遮蔽文本中所述疾病的名称文本和所述描述类型的名称文本进行遮蔽,以得到所述训练数据。5....

【专利技术属性】
技术研发人员:孙小婉蔡巍张霞
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1