语言表征模型的训练方法、装置、设备、介质及用户响应方法制造方法及图纸

技术编号：34102694 阅读：11 留言：0更新日期：2022-07-11 23:48

本申请实施例提出了语言表征模型的训练方法、装置、设备、介质及用户响应方法，其中，上述训练方法中，获取样本集合，每个样本中包括第一语句、第二语句及相似标签；将第一语句输入第一基础模型，以获取第一表征向量；将第二语句输入第二基础模型，以获取第二表征向量；计算第一表征向量和第二表征向量之间的距离，以获得距离向量；将第一表征向量、第二表征向量和距离向量进行拼接，将拼接获得的向量输入分类层，获取预测结果；计算预测结果与相似标签之间的差值，依据差值调整所述第一基础模型和所述第二基础模型的参数，以训练出一个语言表征模型，该模型可以生成表征能力更强大的向量，体现句子更精准的语义。体现句子更精准的语义。体现句子更精准的语义。

全部详细技术资料下载

【技术实现步骤摘要】
语言表征模型的训练方法、装置、设备、介质及用户响应方法

[0001]本申请实施例涉及计算机
，尤其涉及一种语言表征模型的训练方法、装置、设备、介质及用户响应方法。

技术介绍

[0002]句向量表示学习在自然语言处理(natural language processing，NLP)领域占据重要地位，许多NLP技术的实际应用如智能客服常见问题(frequently
‑
asked questions，FAQ)精准回复的成功更是离不开训练优质的句子表示向量。例如，对于文本语义匹配(Semantic Textual Similarity)、文本向量检索(Dense Text Retrieval)等任务，模型需要通过计算两个句子编码后的Embedding(嵌入向量)在表示空间的相似度来衡量这两个句子语义上的相关程度，从而决定其匹配分数。句子表示向量直接决定了任务的匹配准确率、效率等。
[0003]编码器如BERT等这些模型自身导出的句向量(不经过Fine
‑
tune，对所有词向量求平均)质量较低，甚至比不上Glove的结果，因而难以反映出两个句子的语义相似度，用于下游的语义匹配任务。尽管编码器通过有监督的Fine
‑
tune后能够在诸多NLP任务上取得不错的性能，但是用于Fine
‑
tune(微调)的监督语料又是昂贵的。
[0004]因此现有技术亟需寻找一种训练方法，只需要使用少量来自于下游任务无标注的文本用于对模型进行Fine...

【技术保护点】

【技术特征摘要】
1.一种语言表征模型的训练方法，其特征在于，包括：获取样本集合，每个样本中包括第一语句、第二语句及相似标签；将所述第一语句输入第一基础模型，以获取第一表征向量；将所述第二语句输入第二基础模型，以获取第二表征向量，其中，所述第二基础模型是复制所述第一基础模型得到的；计算所述第一表征向量和所述第二表征向量之间的距离，以获得距离向量；将所述第一表征向量、所述第二表征向量和所述距离向量进行拼接，将拼接获得的向量输入分类层，获取预测结果；计算所述预测结果与相似标签之间的差值，依据所述差值调整所述第一基础模型和所述第二基础模型的参数。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取至少两个语句，对每一语句进行数据增强，获取每一语句对应的增强数据集，每一所述增强数据集中至少包括两个语义相同的增强语句；将同一增强数据集中的两个增强语句作为正样本，将不同增强数据集中的两个增强语句作为负样本；收集多个正样本及多个负样本，构建所述样本集合。3.一种用户响应方法，其特征在于，包括：获取知识库中的所有句子，利用语言表征模型将每一句子转换为表征向量；接收用户查询语句，利用语言表征模型将所述用户查询语句转换为查询表征向量；计算所有表征向量与所述查询表征向量的相似度，以查找最相似的表征向量；将所述最相似的表征向量对应的句子作为所述用户查询语句的响应语句；其中，所述语言表征模型包括：执行如权1至2的任一项训练方法得到所述语言表征模型。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：对所述用户查询语句分词，以获取多个词；将所述多个词输入所述语言表征模型，得到多个词表征向量；计算每一词表征向量与所述查询表征向量的相似度，以查询最相似的词表征向量；将所述最相似的词表征向量对应的词作为用户意图。5.一种语言表征模型的训练装置，设置在终端设备中，其特征在于，所述训练装置包括：获取模块，用于获取样本集合，每个样本中包括第一语句、第二语句及相似标签；第一基础模型，用于将所述第一语句转换为第一表征向量；第二基础模型，用于将所述第二语句输入转换为第二表征向量，其中，所述第二基础模型是复制所述第一基础模型得到的；计算模块，用于计算所...

【专利技术属性】
技术研发人员：侯盼盼，黄明星，王福钋，张航飞，徐华韫，曹富康，沈鹏，
申请(专利权)人：北京健康之家科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人