语言表征模型的训练方法、装置、设备、介质及用户响应方法制造方法及图纸

技术编号:34102694 阅读:11 留言:0更新日期:2022-07-11 23:48
本申请实施例提出了语言表征模型的训练方法、装置、设备、介质及用户响应方法,其中,上述训练方法中,获取样本集合,每个样本中包括第一语句、第二语句及相似标签;将第一语句输入第一基础模型,以获取第一表征向量;将第二语句输入第二基础模型,以获取第二表征向量;计算第一表征向量和第二表征向量之间的距离,以获得距离向量;将第一表征向量、第二表征向量和距离向量进行拼接,将拼接获得的向量输入分类层,获取预测结果;计算预测结果与相似标签之间的差值,依据差值调整所述第一基础模型和所述第二基础模型的参数,以训练出一个语言表征模型,该模型可以生成表征能力更强大的向量,体现句子更精准的语义。体现句子更精准的语义。体现句子更精准的语义。

【技术实现步骤摘要】
语言表征模型的训练方法、装置、设备、介质及用户响应方法


[0001]本申请实施例涉及计算机
,尤其涉及一种语言表征模型的训练方法、装置、设备、介质及用户响应方法。

技术介绍

[0002]句向量表示学习在自然语言处理(natural language processing,NLP)领域占据重要地位,许多NLP技术的实际应用如智能客服常见问题(frequently

asked questions,FAQ)精准回复的成功更是离不开训练优质的句子表示向量。例如,对于文本语义匹配(Semantic Textual Similarity)、文本向量检索(Dense Text Retrieval)等任务,模型需要通过计算两个句子编码后的Embedding(嵌入向量)在表示空间的相似度来衡量这两个句子语义上的相关程度,从而决定其匹配分数。句子表示向量直接决定了任务的匹配准确率、效率等。
[0003]编码器如BERT等这些模型自身导出的句向量(不经过Fine

tune,对所有词向量求平均)质量较低,甚至比不上Glove的结果,因而难以反映出两个句子的语义相似度,用于下游的语义匹配任务。尽管编码器通过有监督的Fine

tune后能够在诸多NLP任务上取得不错的性能,但是用于Fine

tune(微调)的监督语料又是昂贵的。
[0004]因此现有技术亟需寻找一种训练方法,只需要使用少量来自于下游任务无标注的文本用于对模型进行Fine

tune,同时能够让Fine

tune后的模型生成表征能力更强大的向量,使其更适用于下游任务。

技术实现思路

[0005]本申请实施例提供了一种语言表征模型的训练方法、装置、设备、介质及用户响应方法,以训练出一个语言表征模型,该模型可以生成表征能力更强大的向量,体现句子更精准的语义。
[0006]第一方面,本申请实施例提供一种语言表征模型的训练方法,包括:获取样本集合,每个样本中包括第一语句、第二语句及相似标签;将所述第一语句输入第一基础模型,以获取第一表征向量;将所述第二语句输入第二基础模型,以获取第二表征向量,其中,所述第二基础模型是复制所述第一基础模型得到的;计算所述第一表征向量和所述第二表征向量之间的距离,以获得距离向量;将所述第一表征向量、所述第二表征向量和所述距离向量进行拼接,将拼接获得的向量输入分类层,获取预测结果;计算所述预测结果与相似标签之间的差值,依据所述差值调整所述第一基础模型和所述第二基础模型的参数。
[0007]上述语言表征模型的训练方法中,采用对比学习的训练方法,得到的模型能够出色地消解高频词对句子语义表示的干扰,经训练后,模型生成的句子表示将不再由高频词主导,移除前几个高频词后,性能没有出现非常明显的变化。因为对比学习“辨别自身”的学习目标能够天然地识别并抑制这类高频特征,从而避免语义相差较大的句子表示过于相近(即上述坍缩现象)。且上述训练法中通过改变了样本相似性判断的手段,增强了模型对数
据的容错性,从而使得最终学习出来的向量更能体现出较为纯粹、精准的“语义”。
[0008]其中一种可能的实现方式中,获取至少两个语句,对每一语句进行数据增强,获取每一语句对应的增强数据集,所述增强数据集中至少包括两个语义相同的增强语句;将同一增强数据集中的两个增强语句作为正样本,将不同增强数据集中的两个增强语句作为负样本;收集多个正样本及多个负样本,构建所述样本集合。
[0009]第二方面,本申请实施例提供一种用户响应方法,包括:获取知识库中的所有句子,利用语言表征模型将每一句子转换为表征向量;接收用户查询语句,利用语言表征模型将所述用户查询语句转换为查询表征向量;计算所有表征向量与所述查询表征向量的相似度,以查找最相似的表征向量;将所述最相似的表征向量对应的句子作为所述用户查询语句的响应语句;其中,所述语言表征模型包括:执行如权1至2的任一项训练方法得到所述语言表征模型。
[0010]其中一种可能的实现方式中,所述方法还包括:对所述用户查询语句分词,以获取多个词;将所述多个词输入所述语言表征模型,得到多个词表征向量;计算每一词表征向量与所述查询表征向量的相似度,以查询最相似的词表征向量;将所述最相似的词表征向量对应的词作为用户意图。
[0011]第三方面,本申请实施例提供一种语言表征模型的训练装置,设置在终端设备中,所述训练装置包括:获取模块,用于获取样本集合,每个样本中包括第一语句、第二语句及相似标签;第一基础模型,用于将所述第一语句转换为第一表征向量;第二基础模型,用于将所述第二语句输入转换为第二表征向量,其中,所述第二基础模型是复制所述第一基础模型得到的;计算模块,用于计算所述第一表征向量和所述第二表征向量之间的距离,以获得距离向量;分类层,用于将所述第一表征向量、所述第二表征向量和所述距离向量进行拼接,通过拼接获得的向量生成预测结果;调整模块,用于计算所述预测结果与相似标签之间的差值,依据所述差值调整所述第一基础模型和所述第二基础模型的参数。
[0012]其中一种可能的实现方式中,还包括:增强模块,用于获取至少两个语句,对每一语句进行数据增强,获取每一语句对应的增强数据集,所述增强数据集中至少包括两个语义相同的增强语句;样本生成模块,用于将同一增强数据集中的两个增强语句作为正样本,将不同增强数据集中的两个增强语句作为负样本;样本集合构建模块,用于收集多个正样本及多个负样本,构建所述样本集合。
[0013]第四方面,本申请实施例提供一种用户响应装置,设置在终端设备中,所述用户响应装置包括:第一转换模块,用于获取知识库中的所有句子,利用语言表征模型将每一句子转换为表征向量;第二转换模块,用于接收用户查询语句,利用语言表征模型将所述用户查询语句转换为查询表征向量;查找模块,用于计算所有表征向量与所述查询表征向量的相似度,以查找最相似的表征向量;响应模块,用于将所述最相似的表征向量对应的句子作为所述用户查询语句的响应语句;其中,所述语言表征模型包括:执行如权1至2的任一项训练方法得到所述语言表征模型。
[0014]其中一种可能的实现方式中,还包括:分词模块,用于对所述用户查询语句分词,以获取多个词;第三转换模块,用于将所述多个词输入所述语言表征模型,得到多个词表征向量;第二查找模块,用于计算每一词表征向量与所述查询表征向量的相似度,以查询最相似的词表征向量;用户意图确定模块,用于将所述最相似的词表征向量对应的词作为用户
意图。
[0015]第五方面,本申请实施例提供一种终端设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面提供的方法。
[0016]第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言表征模型的训练方法,其特征在于,包括:获取样本集合,每个样本中包括第一语句、第二语句及相似标签;将所述第一语句输入第一基础模型,以获取第一表征向量;将所述第二语句输入第二基础模型,以获取第二表征向量,其中,所述第二基础模型是复制所述第一基础模型得到的;计算所述第一表征向量和所述第二表征向量之间的距离,以获得距离向量;将所述第一表征向量、所述第二表征向量和所述距离向量进行拼接,将拼接获得的向量输入分类层,获取预测结果;计算所述预测结果与相似标签之间的差值,依据所述差值调整所述第一基础模型和所述第二基础模型的参数。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取至少两个语句,对每一语句进行数据增强,获取每一语句对应的增强数据集,每一所述增强数据集中至少包括两个语义相同的增强语句;将同一增强数据集中的两个增强语句作为正样本,将不同增强数据集中的两个增强语句作为负样本;收集多个正样本及多个负样本,构建所述样本集合。3.一种用户响应方法,其特征在于,包括:获取知识库中的所有句子,利用语言表征模型将每一句子转换为表征向量;接收用户查询语句,利用语言表征模型将所述用户查询语句转换为查询表征向量;计算所有表征向量与所述查询表征向量的相似度,以查找最相似的表征向量;将所述最相似的表征向量对应的句子作为所述用户查询语句的响应语句;其中,所述语言表征模型包括:执行如权1至2的任一项训练方法得到所述语言表征模型。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:对所述用户查询语句分词,以获取多个词;将所述多个词输入所述语言表征模型,得到多个词表征向量;计算每一词表征向量与所述查询表征向量的相似度,以查询最相似的词表征向量;将所述最相似的词表征向量对应的词作为用户意图。5.一种语言表征模型的训练装置,设置在终端设备中,其特征在于,所述训练装置包括:获取模块,用于获取样本集合,每个样本中包括第一语句、第二语句及相似标签;第一基础模型,用于将所述第一语句转换为第一表征向量;第二基础模型,用于将所述第二语句输入转换为第二表征向量,其中,所述第二基础模型是复制所述第一基础模型得到的;计算模块,用于计算所...

【专利技术属性】
技术研发人员:侯盼盼黄明星王福钋张航飞徐华韫曹富康沈鹏
申请(专利权)人:北京健康之家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1