样本生成方法、模型的训练方法以及检索方法技术

技术编号：33961666 阅读：49 留言：0更新日期：2022-06-30 00:39

本公开提供了一种样本生成方法、语言处理模型的训练方法、检索方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及深度学习技术领域。具体实现方案为：从语料集合中确定与待匹配语句相匹配的第一目标语句，将待匹配语句和第一目标语句，作为负样本语句对；从日志中获取搜索语句和与搜索语句相匹配的第二目标语句，将搜索语句和第二目标语句，作为正样本语句对；以及基于负样本语句对和正样本语句对，生成目标样本，负样本语句对之间的语义相关性大于第一预定阈值、且小于第二预定阈值，正样本语句对的语义相关性大于第二预定阈值。大于第二预定阈值。大于第二预定阈值。

全部详细技术资料下载

【技术实现步骤摘要】
样本生成方法、模型的训练方法以及检索方法

[0001]本公开涉及人工智能
，尤其涉及深度学习
，具体涉及样本生成方法、语言处理模型的训练方法、检索方法、装置、电子设备、存储介质以及程序产品。

技术介绍

[0002]随着人工智能技术的不断发展，自然语言处理实现让机器能够听懂人类输出的自然语言，理解自然语言中的内在含义，并作出相应的反馈。在这些操作中，语义的准确理解、反馈的迅速程度、以及给予相应的意见或者建议，均成为影响人机交互顺畅的因素。

技术实现思路

[0003]本公开提供了一种样本生成方法、语言处理模型的训练方法、检索方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面，提供了一种样本生成方法，包括：从语料集合中确定与待匹配语句相匹配的第一目标语句，将所述待匹配语句和所述第一目标语句，作为负样本语句对；从日志中获取搜索语句和与所述搜索语句相匹配的第二目标语句，将所述搜索语句和所述第二目标语句，作为正样本语句对；以及基于所述负样本语句对和所述正样本语句对，生成目标样本，其中，所述负样本语句对之间的语义相关性大于第一预定阈值、且小于第二预定阈值，所述正样本语句对的语义相关性大于所述第二预定阈值。
[0005]根据本公开的另一方面，提供了一种语言处理模型的训练方法，包括：利用训练样本训练语言处理模型，得到经训练的语言处理模型，其中，所述训练样本是利用本公开所述的样本生成方法生成的。
[0006]根据本公开的另一方面，提供了一种检索方法，包括：获取...

【技术保护点】

【技术特征摘要】
1.一种样本生成方法，包括：从语料集合中确定与待匹配语句相匹配的第一目标语句，将所述待匹配语句和所述第一目标语句，作为负样本语句对；从日志中获取搜索语句和与所述搜索语句相匹配的第二目标语句，将所述搜索语句和所述第二目标语句，作为正样本语句对；以及基于所述负样本语句对和所述正样本语句对，生成目标样本，其中，所述负样本语句对之间的语义相关性大于第一预定阈值、且小于第二预定阈值，所述正样本语句对的语义相关性大于所述第二预定阈值。2.根据权利要求1所述的方法，其中，所述从语料集合中确定与待匹配语句相匹配的第一目标语句包括：将所述待匹配语句输入至双塔模型中，得到所述待匹配语句的待匹配语句向量；以及基于所述待匹配语句向量和语句向量集合，从所述语料集合中确定与所述待匹配语句相匹配的所述第一目标语句，其中，所述语句向量集合是通过将所述语料集合中的多个语句输入至所述双塔模型中得到的，所述语句向量集合中的多个语句向量与所述语料集合中的多个语句一一对应。3.根据权利要求1或2所述的方法，其中，所述从日志中获取搜索语句和与所述搜索语句相匹配的第二目标语句包括：从所述日志中获取与所述搜索语句相匹配的多个初始目标语句；根据点击率，确定所述多个初始目标语句各自的关注度，得到多个关注度；以及基于所述多个关注度，从所述多个初始目标语句中确定所述第二目标语句。4.根据权利要求2所述的方法，其中，所述双塔模型是利用多个样本集合分阶段训练初始双塔模型得到的，其中，所述多个样本集合中的每个样本集合包括训练样本对，所述多个样本集合各自的训练样本对的语义相关性彼此不同。5.一种语言处理模型的训练方法，包括：利用训练样本训练语言处理模型，得到经训练的语言处理模型，其中，所述训练样本是利用根据权利要求1至4中任一项所述的方法生成的。6.根据权利要求5所述的方法，其中，所述训练样本包括第i训练样本和所述第i+1训练样本；其中，所述语言处理模型为第i语言处理模型；所述利用训练样本训练语言处理模型，得到经训练的语言处理模型包括：利用所述第i训练样本训练所述第i语言处理模型，得到第i+1语言处理模型，其中，所述第i训练样本包括第i负样本语句对，所述i为大于或者等于1的整数；以及利用所述第i+1训练样本训练所述第i+1语言处理模型，得到第i+2语言处理模型，将所述第i+2语言处理模型作为所述经训练的语言处理模型，其中，所述第i+1训练样本包括第i+1负样本语句对，其中，所述第i+1负样本语句对之间的语义相关性大于所述第i负样本语句对之间的语义相关性。7.根据权利要求6所述的方法，其中，所述第i训练样本还包括第i正样本语句对，所述第i+1训练样本还包括第i+1正样本语句对，
其中，所述第i+1正样本语句对中的正样本语句的关注度大于所述第i正样本语句对中的正样本语句的关注度。8.一种检索方法，包括：获取检索项；以及将所述检索项和多个候选语句输入至语言处理模型中，得到目标语句，其中，所述语言处理模型是利用根据权利要求5至7中任一项所述的方法训练得到的。9.一种样本生成装置，包括：第一确定模块，用于从语料集合中确定与待匹配语句相匹配的第一目标语句，将所述待匹配语句和所述第一目标语句，作为负样本语句对；第二确定模块，用于从日志中获取搜索语句和与所述搜索语句相匹配的第二目标语句，将所述搜索语句和所述第二目标语句，作为正样本语句对；以及生成模块，用于基于所述负样本语句对和所述正样本语句对，生成目标样本，其中，所述负样本语句对之间的语义相关性大于第一预定阈值、且小于第二预定阈值，所述正...

【专利技术属性】
技术研发人员：施云生，黄正杰，冯仕堃，黄世维，何径舟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人