语义表征模型的训练方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：38326076 阅读：10 留言：0更新日期：2023-07-29 09:08

本发明专利技术公开了一种语义表征模型的训练方法、装置、存储介质及计算机设备，涉及数字医疗技术领域。其中方法包括：获取多个文档文件，在每个文档文件中确定查询标签，确定与每个查询标签对应的正样本；确定每个查询标签对应的困难负样本，创建包含每个查询标签以及与查询标签对应的正样本和困难负样本的训练数据集，其中，训练数据集包括包含预设数量的查询标签以及与查询标签对应的正样本和困难负样本的训练批次；获得预训练语言模型，确定出每个训练批次中每个查询标签对应的负样本；基于包含每个查询标签对应的负样本的训练数据集使用对比学习损失函数对预训练语言模型进行训练得到语义表征模型。上述方法能提高训练出的语义表征模型的准确性。表征模型的准确性。表征模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语义表征模型的训练方法、装置、存储介质及计算机设备

[0001]本专利技术涉及数字医疗
，尤其是涉及一种语义表征模型的训练方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着医疗技术的日趋成熟，医疗
内文本数量也随之快速增长，在大范围地文本搜索场景下，基于内容理解的搜索至关重要。能否快速地在海量的文本内搜索出所要得到的文本文档，对医疗工作的快速推进有着重要的作用，能否快速的在海量的医疗
的文档中快速准确的找出所要获取的医学文档，对疾病辅助诊断以及健康管理方面有着重要的意义。
[0003]当前，业界主流的做法是建立语义模型，其中，直接使用BERT的CLS的特征信息作为输入的向量表示、使用文本所有词的特征信息的平均值作为向量表示、使用文本所有词的特征表示的最大值作为输入文本的向量对模型进行训练。
[0004]但是，以该种模型训练方式训练的语义模型，在医疗文本搜索的数据非常稀缺的情况下，无法构造高质量的数据，导致语义模型的准确率大幅降低。

技术实现思路

[0005]有鉴于此，本申请提供了一种语义表征模型的训练方法、装置、存储介质及计算机设备，主要目的在于解决传统方法训练出的语义模型的准确率过低的技术问题。
[0006]根据本专利技术的第一个方面，提供了一种语义表征模型的训练法，该方法包括：
[0007]获取多个文档文件，在每个所述文档文件中确定出查询标签，并确定与每个所述查询标签对应的正样本；
[0008]确定每个所述查询标签对应的困难负样...

【技术保护点】

【技术特征摘要】
1.一种语义表征模型的训练方法，其特征在于，所述方法包括：获取多个文档文件，在每个所述文档文件中确定出查询标签，并确定与每个所述查询标签对应的正样本；确定每个所述查询标签对应的困难负样本，并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集，其中，所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次；获得预训练语言模型，并确定出每个所述训练批次中每个查询标签对应的负样本，并将所述负样本加入到所述训练数据集中；基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练，得到语义表征模型。2.根据权利要求1所述的方法，其特征在于，所述在每个所述文档文件中确定出查询标签，并确定与每个所述查询标签对应的正样本，包括：确定每个所述文档文件的标题信息，并将所述标题信息作为所述文档文件对应的查询标签；确定每个所述文档文件的摘要信息，并将所述摘要信息确定为所述文档文件对应的查询标签的正样本。3.根据权利要求2所述的方法，其特征在于，所述确定与每个所述查询标签对应的正样本，还包括：确定所述查询标签对应的文档文件中每个段落的起始句和终止句；将所述文档文件中全部所述段落的所述起始句和所述终止句进行拼接，得到与所述文档文件对应的所述查询标签的正样本。4.根据权利要求1所述的方法，其特征在于，所述确定每个所述查询标签对应的困难负样本，包括：针对所述查询标签，确定每个所述文档文件中所述查询标签出现的频率；对全部所述文档文件按照预设的顺序排列，得到文档文件队列；在文档文件队列中选择预设次序的文档文件作为所述查询标签的所述困难负样本。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述确定出每个所述训练批次中每个查询标签对应的负样本，包括执行循环过程直至满足预设条件，其中，所述循环过程包括：从每个所述训练批次内选取出一个所述查询标签，并确定所述训练批次内被选取出的所述查询标签之外的全部所述查询标签对应的正样本；将所述正样本确定为所述选取出的所述查询标签的负样本；所述预设条件为：所述训练批次内每个所述查询标签都被确定出与所述查询标签对应的所述负样本；将与每个所述查询标签对应的所述负...

【专利技术属性】
技术研发人员：凌慧峰，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人