内容召回方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33307723 阅读:16 留言:0更新日期:2022-05-06 12:18
本发明专利技术公开了一种内容召回方法、装置、计算机设备及存储介质,应用于人工智能技术领域,用于提高获取召回内容的准确性。本发明专利技术提供的方法包括:获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量;获取预设的召回候选集,并基于语义识别方式,对所述目标语料和召回候选集进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,并生成候选语料集的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。到所述目标语料对应的召回内容。到所述目标语料对应的召回内容。

【技术实现步骤摘要】
内容召回方法、装置、计算机设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种内容召回方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前,语义召回技术被广泛应用在基于人工智能的问答系统或者智能推荐场景中,通过目标语句的句向量与召回内容的相似度,为用户匹配对应的回答或者向用户推荐内容。
[0003]在内容召回场景中,通常包括召回和排序两大部分,通过计算目标语句或者搜索引擎的使用场景中,根据相似度的大小为召回内容排序,将排序后的召回内容展示给用户。
[0004]然而,现有技术一般基于BERT模型对目标语句进行句向量表征,生成目标语句的句向量,再根据相似度为目标语句匹配最相似的召回内容。BERT模型对句向量的表征结果呈锥形分布,高频词聚集在锥头部,匹配词分散在锥尾,因此影响句子的分布,使得不同句子的整体相似度很高,在此基础上,根据相似度匹配召回内容会导致匹配结果准确率不高。

技术实现思路

[0005]本专利技术提供一种内容召回方法、装置、计算机设备及存储介质,以提高获取召回内容的准确性。
[0006]一种内容召回方法,包括:
[0007]获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量,其中,所述预设的句向量表征模型基于对比学习模型构建;
[0008]获取预设的召回候选集,其中,所述召回候选集中包含至少两个候选召回语料;
[0009]基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,其中,所述候选语料集包含至少两个候选语料;
[0010]生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;
[0011]将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。
[0012]一种内容召回装置,包括:
[0013]语料表征向量生成模块,用于获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量,其中,所述预设的句向量表征模型基于对比学习模型构建;
[0014]召回候选集获取模块,用于获取预设的召回候选集,其中,所述召回候选集中包含至少两个候选召回语料;
[0015]语义识别模块,用于基于语义识别方式,对所述目标语料和每个所述候选召回语
料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,其中,所述候选语料集包含至少两个候选语料;
[0016]相似度计算模块,用于生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;
[0017]内容召回模块,用于将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。
[0018]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述内容召回方法的步骤。
[0019]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述内容召回方法的步骤。
[0020]本专利技术提供的内容召回方法、装置、计算机设备及存储介质,通过获取目标语料,并将目标预料输入到预设的句向量表征模型中,得到语料表征向量,并获取预设的召回候选集,并对召回候选集中的候选召回语料以及目标语料进行语义识别,从而根据语义识别结果确定候选召回语料和目标语料的语义相似度结果,根据语义相似度结果从召回候选集中筛选出与目标语料语义更加相似的候选语料集,进一步保证了召回内容与目标语料的相似程度,进一步保证召回更加准确的内容,得到候选语料集之后,计算候选语料集中的候选语料与目标语料的向量相似度值,根据向量相似度值获得与目标语料对应的召回内容,进一步提高了获得与目标语料所匹配的召回内容,提高召回内容的匹配准确性。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术一实施例中内容召回方法的一应用环境示意图;
[0023]图2是本专利技术一实施例中内容召回方法的一流程图;
[0024]图3是本专利技术一实施例中内容召回装置的结构示意图;
[0025]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]本专利技术实施例提供的内容召回方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0028]本专利技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0029]人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0030]服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0031]系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0032]用户可以使用终端设备通过网络与服务器交互,以接收或者发送消息等。
[0033]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Eperts Grou本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容召回方法,其特征在于,包括:获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量,其中,所述预设的句向量表征模型基于对比学习模型构建;获取预设的召回候选集,其中,所述召回候选集中包含至少两个候选召回语料;基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集,其中,所述候选语料集包含至少两个候选语料;生成每个所述候选语料的候选语料向量,并计算每个所述候选语料向量和所述语料表征向量的向量相似度,得到向量相似度值;将所述向量相似度值大于预设向量相似度阈值的候选语料进行组合,得到所述目标语料对应的召回内容。2.根据权利要求1所述的内容召回方法,其特征在于,在所述获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量之前,包括:获取训练数据,将所述训练数据输入到预训练模型中生成训练表征向量,并基于所述训练表征向量生成损失优化函数,其中,所述预训练模型基于对比学习模型构建;将所述训练数据输入到所述预训练模型中,并基于所述预训练模型的初始参数和损失优化函数进行参数迭代,直到迭代停止后,得到训练之后的预训练模型,作为预设的句向量表征模型。3.根据权利要求2所述的内容召回方法,其特征在于,所述获取训练数据,将所述训练数据输入到预训练模型中生成训练表征向量,并基于所述训练表征向量生成损失优化函数包括:将所述训练数据中的第一样本数据输入到预训练模型的dropout编码器中,得到第一预测向量,基于第一样本数据的嵌入标签和所述第一预测向量,生成第一损失函数;将所述第一样本数据输入到所述预训练模型的dropout编码器中,得到第二预测向量,基于所述第一预测向量和所述第二预测向量,得到第二损失函数;基于对比损失函数,根据所述第一预测向量和所述第二预测向量生成第三损失函数;将所述第一损失函数、所述第二损失函数以及所述第三损失函数进行权重求和,得到所述损失优化函数。4.根据权利要求1所述的内容召回方法,其特征在于,所述获取目标语料,并将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的的语料表征向量包括:获取用户输入的的文本语料,对所述文本语料进行标准化处理,得到标准语料,作为目标语料;将所述目标语料输入到预设的句向量表征模型中,得到所述目标语料的语料表征向量。5.根据权利要求1所述的内容召回方法,其特征在于,所述基于语义识别方式,对所述目标语料和每个所述候选召回语料进行语义识别,得到语义识别结果,并基于所述语义识别结果,得到候选语料集包括:对所述预设的召回候选集中的候选召回语料进行语义消歧和语义识别,得到所述候选召回语料...

【专利技术属性】
技术研发人员:马建
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1