【技术实现步骤摘要】
数据召回方法及装置
[0001]本申请涉及人工智能
,尤其涉及一种数据召回方法及装置。
技术介绍
[0002]随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的搜索引擎、智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等。
[0003]目前,搜索引擎的功能也日趋强大。召回是搜索中的重要环节,可以根据用户输入的搜索数据可以从海量数据中召回与搜索数据相关的数据。相关技术中,常常结合深度学习模型来召回数据,但结合深度学习模型来召回数据的召回准确率和效率往往受限于模型进行特征学习过程中的运算量,训练样本,网络越大,召回准确率往往较高,但复杂度和运算量较高,效率较低;网络轻量化时,虽然效率提升了,但召回准确率较低,且泛化性较差。因此,需要提供更可靠或更有效的方案。
技术实现思路
[0004]本申请提供了一种数据召回方法、装置、设备、存储介质及计算机程序产品,可以提升模型特征表征的泛化性,且可以 ...
【技术保护点】
【技术特征摘要】
1.一种数据召回方法,其特征在于,所述方法包括:获取搜索数据和第一数量个待召回数据;将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到所述搜索数据对应的第一哈希特征、所述第一哈希特征对应的第一分段量化码本、所述第一数量个待召回数据各自对应的第二哈希特征、所述第二哈希特征对应的第二分段量化码本;基于所述第一分段量化码本和所述第二分段量化码本,从所述第一数量个待召回数据中确定第二数量个待筛选召回数据;基于所述第一哈希特征和所述第二数量个待筛选召回数据的第二哈希特征,从所述第二数量个待筛选召回数据中,确定所述搜索数据的目标召回数据;其中,所述预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型。2.根据权利要求1所述的方法,其特征在于,所述预设特征表征模型包括哈希特征提取模块和量化码本模块;所述将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到所述搜索数据对应的第一哈希特征、所述第一哈希特征对应的第一分段量化码本、所述第一数量个待召回数据各自对应的第二哈希特征、所述第二哈希特征对应的第二分段量化码本包括:将所述搜索数据和所述第一数量个待召回数据输入所述哈希特征提取模块进行特征提取处理,得到所述第一哈希特征和所述第二哈希特征;基于所述量化码本模块,对所述第一哈希特征和所述第二哈希特征进行分段量化表征,得到所述第一分段量化码本和所述第二分段量化码本。3.根据权利要求2所述的方法,其特征在于,所述基于所述量化码本模块,对所述第一哈希特征和所述第二哈希特征进行分段量化表征,得到所述第一分段量化码本和所述第二分段量化码本包括:将所述第一哈希特征和所述第二哈希特征输入所述量化码本模块中;在所述量化码本模块中,对所述第一哈希特征和所述第二哈希特征分别进行分段处理,得到所述第一哈希特征在第三数量个分段下的第一分段哈希特征和所述第二哈希特征在所述第三数量个分段下的第二分段哈希特征;以及,对每个分段下的第一分段哈希特征和第二分段哈希特征进行聚类处理,得到在每个分段下对应的第四数量个分段聚类特征;以及,将所述第一哈希特征,在所述第三数量个分段下对应的所述第四数量个分段聚类特征作为所述第一分段量化码本;以及,将每个待召回数据的第二哈希特征,在所述第三数量个分段下对应的所述第四数量个分段聚类特征作为所述每个待召回数据的第二分段量化码本。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一分段量化码本和所述第二分段量化码本,从所述第一数量个待召回数据中确定第二数量个待筛选召回数据包括:从所述第一哈希特征在所述第三数量个分段下对应的所述第四数量个分段聚类特征中,确定所述第一哈希特征在所述第三数量个分段下对应的第一分段量化特征;
从所述每个待召回数据的第二哈希特征,在所述第三数量个分段下对应的所述第四数量个分段聚类特征中,确定所述每个待召回数据的第二哈希特征,在所述第三数量个分段下对应的第二分段量化特征;从所述第一数量个待召回数据中,确定对应的第二哈希特征在所述每个分段下对应的第二分段量化特征与所述第一哈希特征在所述每个分段下对应的第一分段量化特征一致的初选待召回数据;将所述第三数量个分段下对应的初始待召回数据的交集,作为所述第二数量个待筛选召回数据。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一哈希特征和所述第二数量个待筛选召回数据的第二哈希特征,从所述第二数量个待筛选召回数据中,确定所述搜索数据的目标召回数据包括:确定所述第一哈希特征分别与所述第二数量个待筛选召回数据的第二哈希特征间的相似度;根据所述相似度,从所述第二数量个待筛选召回数据中,确定所述目标召回数据。6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:获取标注样本数据和无标注样本数据;将所述标注样本数据和所述无标注样本数据输入预设深度学习模型进行特征表征处理,得到所述标注样本数据和所述无标注样本数据各自对应的第一样本哈希特征;基于所述第一样本哈希特征,确定第一哈希损失;基于所述第一哈希损失,训练所述预设深度学习模型,得到初始特征表征模型;将所述标注样本数据和所述无标注样本数据输入所述初始特征表征模型进行特征表征处理,得到所述标注样本数据和所述无标注样本数据各自对应的第二样本哈希特征,以及所述第二样本哈希特征对应的样本分段量化码本;基于所述第二样本哈希特征和所述样本分段量化码本,确定第二哈希损失和目标量化损失;基于所述第二哈希损失和所述目标量化损失,训练所述初始特征表征模型,得到所述预设特征表征模型。7.根据权利要求6所述的方法,其特征在于,所述基于所述第二哈希损失和所述目标量化损失,训练所述初始特征表征模型,得到所述预设特征表征模型包括:根据所述第二哈希损失和所述目标量化损失,确定目标损失;基于所述目标损失更新所述初始特征表征模型的模型参数;在所述初始特征表征模型的当前累计更新次数为目标次数的情况下,将所述标注样本数据和所述无标注样本数据输入更新后的初始特征表征模型进行特征表征处理,以更新所述标注样本数据和所述无标注样本数据...
【专利技术属性】
技术研发人员:郭卉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。