医学应用模型的预训练方法、装置、存储介质及电子设备制造方法及图纸

技术编号：32646713 阅读：25 留言：0更新日期：2022-03-12 18:30

本公开涉及一种医学应用模型的预训练方法、装置、存储介质及电子设备，该方法包括：获取预训练语料，所述预训练语料包括疾病的名称文本、描述类型的名称文本、以及所述疾病在所述描述类型下的描述文本；基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理，以得到训练数据；根据所述训练数据对BERT模型进行MLM训练，以得到预训练完成的BERT模型。采用本公开这种方式，能够增强BERT模型对医学领域的自然语言的语义理解能力，从而提升BERT模型对医学领域的自然语言的编码准确性。的编码准确性。的编码准确性。

全部详细技术资料下载

【技术实现步骤摘要】
医学应用模型的预训练方法、装置、存储介质及电子设备

[0001]本公开涉及自然语言处理
，具体地，涉及一种医学应用模型的预训练方法、装置、存储介质及电子设备。

技术介绍

[0002]BERT(Bidirectional Encoder Representation from Transformers)是一种预训练的语言表征模型。预训练BERT模型，引入了MLM(Masked Language Model，掩码语言模型)以及NSP(Next Sentence Prediction，下一句预测)两个预训练任务，并在大规模语料上进行预训练(Pre
‑
training)。在具体应用预训练完成的BERT模型的场景中，使用少量标注语料进行微调(Fine
‑
tuning)即可完成文本分类、序列标注、机器翻译、阅读理解、知识问答等下游NLP(Natural Language Processing)任务。
[0003]相关技术中，为了保证BERT模型的通用性，训练BERT模型的大规模语料需覆盖...

【技术保护点】

【技术特征摘要】
1.一种医学应用模型的预训练方法，其特征在于，所述方法包括：获取预训练语料，所述预训练语料包括疾病的名称文本、描述类型的名称文本、以及所述疾病在所述描述类型下的描述文本；基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理，以得到训练数据；根据所述训练数据对BERT模型进行MLM训练，以得到预训练完成的BERT模型。2.根据权利要求1所述的方法，其特征在于，所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理，以得到训练数据，包括：在所述描述文本中包括所述疾病的名称文本和所述描述类型的名称文本的情况下，对所述描述文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽，以得到所述训练数据。3.根据权利要求1所述的方法，其特征在于，所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理，以得到训练数据，包括：在所述描述文本中不包括所述疾病的名称文本和所述描述类型的名称文本的情况下，构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本；对所述问题文本中的所述疾病的名称文本和所述描述类型的名称文本进行遮蔽，得到目标问题文本；将所述目标问题文本与所述描述文本进行拼接，以得到所述训练数据。4.根据权利要求1所述的方法，其特征在于，所述基于所述疾病的名称文本和所述描述类型的名称文本对所述描述文本进行掩码处理，以得到训练数据，包括：在所述描述文本中不包括所述疾病的名称文本或所述描述类型的名称文本的情况下，构建包括所述疾病的名称文本和所述描述类型的名称文本的问题文本；将所述问题文本和所述描述文本进行拼接，得到待遮蔽文本；对所述待遮蔽文本中所述疾病的名称文本和所述描述类型的名称文本进行遮蔽，以得到所述训练数据。5....

【专利技术属性】
技术研发人员：孙小婉，蔡巍，张霞，
申请(专利权)人：沈阳东软智能医疗科技研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人