【技术实现步骤摘要】
用于搜索系统的训练方法、电子设备和存储介质
[0001]本公开涉及人工智能
,尤其涉及智能搜索
,具体涉及一种用于搜索系统的训练方法、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]数据搜索是互联网中的基础服务之一,能够基于用户的搜索请求提供满足用户需求的搜索结果。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种基于预训练语言模型的搜索系统的训练方法,其中,所述搜索系统包括由召回模型和排序模型级联组成的端到端深度神经网络基础模型,并且其中,所述召回模型基于双编码器构造,所述排序模型基于交叉编码器构造,所述方法包括:接收样本数据集,所述样本数据集中的样本数据包括样本搜索请求和第一目标输出数据集;初始化所述召回模型和所述排序模型中的多个参数;对于每一个样本数据,执行如下操作:由所述召回模型中的第一编码器将该样本数据中的样本搜索请求转换为第一请求语义向量;由所述召回模型中的第二编码器分别将不同类型的多个候选数据转换成对应的多个第一数据语义向量,其中,所述不同类型的多个候选数据至少包括文本、图片和视频;分别计算所述第一请求语义向量和所述多个第一数据语义向量之间的第一相似度,以获取第一数量的第一数据语义向量,其中,所述第一数量的第一数据语义向量与所述第一请求语义向量的第一相似度均满足预设条件;依次将所述样本搜索请求和与所述第一数量的第一数据语义向量中的每一个第一数据语义向量相对应的候选数据作为第一联合输入值输入到所述排序模型的交叉编码器中,以对分别与所述第一数量的第一数据语义向量相对应的候选数据进行排序;基于经排序的候选数据和所述第一目标输出数据集,计算损失函数;以及基于所述损失函数调整所述召回模型和所述排序模型中的多个参数。2.如权利要求1所述的方法,其中,所述第一联合输入值包括相应的候选数据的内容质量、发布时间和来源可信度中的至少一者。3.如权利要求1或2所述的方法,其中,所述系统还包括推荐模型,并且其中,所述样本数据集中的样本数据还包括第二目标输出数据集,所述方法还包括:初始化所述推荐模型中的多个参数;对于每一个样本数据,执行如下操作:依次将所述样本搜索请求和与所述第一数量的第一数据语义向量中的每一个第一数据语义向量相对应的候选数据作为第二联合输入值输入到所述推荐模型的交叉编码器中,以对分别与所述第一数量的第一数据语义向量相对应的候选数据进行排序;基于经排序的候选数据和所述第二目标输出数据集,计算损失函数;以及基于所述损失函数调整所述目标模...
【专利技术属性】
技术研发人员:王海峰,田浩,刘璟,吴华,吴甜,孙宇,佘俏俏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。