一种句子向量模型训练方法技术

技术编号:30514925 阅读:24 留言:0更新日期:2021-10-27 22:57
本发明专利技术提供一种句子向量模型训练方法,包括:S1、对多个原始句子进行数据增强处理,得到每个原始句子的多个相似句子,将所有句子复制多份后用于构建多个句子对及其相似性标签;S2、用BERT模型基于所述多个句子对进行预训练,得到第一BERT模型,其中,所述预训练包括利用句子对进行掩码语言模型预训练以及利用句子对和相似性标签进行的判断两个句子是否相似的预训练;S3、利用相应领域的任务对应的分类数据集对第一BERT模型进行微调,得到句子向量模型,该模型具有较好的泛化能力。基于句子向量模型采用的文本检索方法,提高文本检索效率。率。率。

【技术实现步骤摘要】
一种句子向量模型训练方法


[0001]本专利技术涉及自然语言处理领域,具体涉及一种句子向量模型训练方法。

技术介绍

[0002]在60年代,文本检索技术的一些关键技术获取了突破。其间出现了一些优秀的系统以及评价指标。在评价指标方面,由克兰菲尔德(Cranfield)的研究组组织的克兰菲尔德(Cranfield)评测提出了许多目前仍然被广泛采用的评价指标,而在系统方面,杰拉德
·
索尔顿(Gernard Salton)开发的智能信息检索系统(SMART information retrieval system)构建了一个很好的研究平台,在此平台上,研究者可以定义自己的文档相关性测度,以改进检索性能。这样,作为一个研究课题,文本检索技术拥有了较为完善实验平台与评价指标,其研究理所当然地步入了快车道。也正因为如此,在70年代到80年代,许多为文本检索的理论与模型被提出,并且被证明对当时所能获得的数据集是有效的。其中最为著名的是杰拉德
·
索尔顿(Gerard Salton)提出的向量空间模型。至今该模型还是信息检索领域本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种句子向量模型训练方法,其特征在于,包括:S1、对多个原始句子进行数据增强处理,得到每个原始句子的多个相似句子,将所有句子复制多份后用于构建多个句子对及其相似性标签;S2、用BERT模型基于所述多个句子对进行预训练,得到第一BERT模型,其中,所述预训练包括利用句子对进行掩码语言模型预训练以及利用句子对和相似性标签进行的判断两个句子是否相似的预训练;S3、利用相应领域的任务对应的分类数据集对第一BERT模型进行微调,得到句子向量模型。2.根据权利要求1所述的方法,其特征在于,所述构建多个句子对及其相似性标签的构建过程包括:获得多个相似句子对,且将相似性标签标记为相似,其中,每个相似句子对是从原始句子和所述原始句子对应的多个相似句子中的随机选择的两个句子组成;获得多个不相似句子对,且将相似性标签标记为不相似,其中,每个不相似句子对是从若干原始句子中,或从原始句子和不同所述原始句子对应的相似句子中,或从不同原始句子对应的不相似句子中随机选择的两个句子组成。3.根据权利要求1所述的方法,其特征在于,所述多任务学习的学习过程包括:随机遮罩句子对中预定比例的词,在BERT模型中进行掩码语言模型预训练,获得遮罩词的预测结果,基于预测结果和遮罩的原词计算第一子损失;将句子对输入BERT模型中进行二分类预训练,获得指示句子对中两个句子是否相似的分类结果,根据分类结果和相似性标签计算第二子损失;利用第一子损失和第二子损失加权求和的总损失通过反向传播更新BERT模型参数,得到第一BERT模型。4.根据权利要求1所述的方法,其特征在于,所述利用相应领域的任务对应的分类数据集对第一BERT模型进行微调包括:将分类数据集中的样本输入基于第一BERT模型构成的孪生网络结构,获得样本的分类结果;根据分类结果调整第一...

【专利技术属性】
技术研发人员:姜怀臣张毅阳李冬冬
申请(专利权)人:临沂中科好孕智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1