语义表征模型的训练方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:38326076 阅读:10 留言:0更新日期:2023-07-29 09:08
本发明专利技术公开了一种语义表征模型的训练方法、装置、存储介质及计算机设备,涉及数字医疗技术领域。其中方法包括:获取多个文档文件,在每个文档文件中确定查询标签,确定与每个查询标签对应的正样本;确定每个查询标签对应的困难负样本,创建包含每个查询标签以及与查询标签对应的正样本和困难负样本的训练数据集,其中,训练数据集包括包含预设数量的查询标签以及与查询标签对应的正样本和困难负样本的训练批次;获得预训练语言模型,确定出每个训练批次中每个查询标签对应的负样本;基于包含每个查询标签对应的负样本的训练数据集使用对比学习损失函数对预训练语言模型进行训练得到语义表征模型。上述方法能提高训练出的语义表征模型的准确性。表征模型的准确性。表征模型的准确性。

【技术实现步骤摘要】
语义表征模型的训练方法、装置、存储介质及计算机设备


[0001]本专利技术涉及数字医疗
,尤其是涉及一种语义表征模型的训练方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着医疗技术的日趋成熟,医疗
内文本数量也随之快速增长,在大范围地文本搜索场景下,基于内容理解的搜索至关重要。能否快速地在海量的文本内搜索出所要得到的文本文档,对医疗工作的快速推进有着重要的作用,能否快速的在海量的医疗
的文档中快速准确的找出所要获取的医学文档,对疾病辅助诊断以及健康管理方面有着重要的意义。
[0003]当前,业界主流的做法是建立语义模型,其中,直接使用BERT的CLS的特征信息作为输入的向量表示、使用文本所有词的特征信息的平均值作为向量表示、使用文本所有词的特征表示的最大值作为输入文本的向量对模型进行训练。
[0004]但是,以该种模型训练方式训练的语义模型,在医疗文本搜索的数据非常稀缺的情况下,无法构造高质量的数据,导致语义模型的准确率大幅降低。

技术实现思路

[0005]有鉴于此,本申请提供了一种语义表征模型的训练方法、装置、存储介质及计算机设备,主要目的在于解决传统方法训练出的语义模型的准确率过低的技术问题。
[0006]根据本专利技术的第一个方面,提供了一种语义表征模型的训练法,该方法包括:
[0007]获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;
[0008]确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;
[0009]获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;
[0010]基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
[0011]根据本专利技术的第二个方面,提供了一种语义表征模型的训练装置,该装置包括:
[0012]样本确定模块,用于获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;
[0013]数据集获取模块,用于确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对
应的所述正样本和所述困难负样本的训练批次;
[0014]模型获取模块,用于获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;
[0015]模型训练模块,用于基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。
[0016]根据本专利技术的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语义表征模型的训练方法。
[0017]根据本专利技术的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语义表征模型的训练方法。
[0018]本专利技术提供的一种语义表征模型的训练方法、装置、存储介质及计算机设备,能够构造出高质量的查询标签(query)、正样本(document)和困难负样本(hard negative)数据集,并使用对比学习损失函数基于包括query、document、hard negative和得到的负样本(negative)对预训练模型进行训练。本申请通过构建query和document搜索数据的方法,操作简单,运算量小,训练质量较高,正样本语义相关性高的方式训练语义模型,能大幅提高训练出的高语义表征模型的准确性。
[0019]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0020]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0021]图1示出了本专利技术实施例提供的一种语义表征模型的训练方法的流程示意图;
[0022]图2示出了本专利技术实施例提供的一种语义表征模型的训练装置的结构示意图。
具体实施方式
[0023]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0024]现如今,医学文档信息查询成为很多医学诊断与医学研究场景中用户快速获取所需医疗信息的主要渠道。当前的医疗
,业界主流的做法是建立语义模型,其中,直接使用BERT的CLS的特征信息作为输入的向量表示、使用文本所有词的特征信息的平均值作为向量表示、使用文本所有词的特征表示的最大值作为输入文本的向量对模型进行训练。但是,以该种模型训练方式训练的语义模型,在医疗文本搜索的数据非常稀缺的情况下,无法构造高质量的数据,导致语义模型的准确率大幅降低。
[0025]针对上述问题,在一个实施例中,如图1所示,提供了一种语义表征模型的训练方法,应当注意的,是本申请实施例中以该方法适用于医疗文档领域为例进行介绍,本申请同样适用于其他
现以该方法应用于计算机设备为例进行说明,包括以下步骤:
[0026]101、获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个
所述查询标签对应的正样本。
[0027]其中,在一种可能的实现方式中,所述文档文件可以为医疗领域的技术或医学研究领域的学术论文等文档,如胃部病变的研究论文等相关医学文档。查询标签可以为query标签,正样本可以为query标签对应的document数据。
[0028]具体的,可以在文档文件中选定出特定的能够对文档文件中的信息具有概括性的文字信息作为query标签,并在query标签所在的文档文件中选择出特定的语句或语句的组合作为query标签对应的document数据。
[0029]102、确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集。
[0030]其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次(batch)。
[0031]具体的,可以基于tf

idf算法,全部文档文件中选择出与每个query标签相关性较高的文档,将该文档作为该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义表征模型的训练方法,其特征在于,所述方法包括:获取多个文档文件,在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本;确定每个所述查询标签对应的困难负样本,并创建包含每个所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练数据集,其中,所述训练数据集包括至少一个包含预设数量的所述查询标签以及与所述查询标签对应的所述正样本和所述困难负样本的训练批次;获得预训练语言模型,并确定出每个所述训练批次中每个查询标签对应的负样本,并将所述负样本加入到所述训练数据集中;基于所述训练数据集使用对比学习损失函数对所述预训练语言模型进行训练,得到语义表征模型。2.根据权利要求1所述的方法,其特征在于,所述在每个所述文档文件中确定出查询标签,并确定与每个所述查询标签对应的正样本,包括:确定每个所述文档文件的标题信息,并将所述标题信息作为所述文档文件对应的查询标签;确定每个所述文档文件的摘要信息,并将所述摘要信息确定为所述文档文件对应的查询标签的正样本。3.根据权利要求2所述的方法,其特征在于,所述确定与每个所述查询标签对应的正样本,还包括:确定所述查询标签对应的文档文件中每个段落的起始句和终止句;将所述文档文件中全部所述段落的所述起始句和所述终止句进行拼接,得到与所述文档文件对应的所述查询标签的正样本。4.根据权利要求1所述的方法,其特征在于,所述确定每个所述查询标签对应的困难负样本,包括:针对所述查询标签,确定每个所述文档文件中所述查询标签出现的频率;对全部所述文档文件按照预设的顺序排列,得到文档文件队列;在文档文件队列中选择预设次序的文档文件作为所述查询标签的所述困难负样本。5.根据权利要求1

4任一项所述的方法,其特征在于,所述确定出每个所述训练批次中每个查询标签对应的负样本,包括执行循环过程直至满足预设条件,其中,所述循环过程包括:从每个所述训练批次内选取出一个所述查询标签,并确定所述训练批次内被选取出的所述查询标签之外的全部所述查询标签对应的正样本;将所述正样本确定为所述选取出的所述查询标签的负样本;所述预设条件为:所述训练批次内每个所述查询标签都被确定出与所述查询标签对应的所述负样本;将与每个所述查询标签对应的所述负...

【专利技术属性】
技术研发人员:凌慧峰
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1