近邻向量的召回方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24331848 阅读:20 留言:0更新日期:2020-05-29 19:59
本申请公开了一种近邻向量的召回方法、装置、计算机设备及存储介质,涉及云会议领域。所述方法包括:获取源向量和目标向量集的聚类结果,所述聚类结果包括至少两个类别的聚类向量集,以及所述聚类向量集的质心向量;根据所述源向量和所述聚类向量集的所述质心向量之间的第一相似度,从所述聚类向量集中确定出所述源向量的至少一个近邻向量集;根据所述源向量和所述近邻向量集中的各个候选近邻向量之间的第二相似度,从所述候选近邻向量中召回目标近邻向量。

Recall method, device, computer equipment and storage medium of nearest neighbor vector

【技术实现步骤摘要】
近邻向量的召回方法、装置、计算机设备及存储介质
本申请实施例涉及信息推送领域,特别涉及一种近邻向量的召回方法、装置、计算机设备及存储介质。
技术介绍
近邻向量的召回是根据用户的用户画像和物品维度之间的相似性,向用户推荐可能感兴趣的信息的技术。相关技术中,在针对某个用户A进行推荐时,服务器计算用户的第一向量和物品的第二向量,计算第一向量和第二向量之间的相似度。将第二向量按照与第一向量的相似度由高到低的顺序进行排序,根据排序在前k位的第二向量对应的物品生成该用户A的推荐信息。上述技术在数据量位于百万量级仍然具有较好的性能,但是在用户和物品维度到了亿级,即便有大规模计算集群,计算成本也很高,导致计算性能比较差。
技术实现思路
本申请实施例提供了一种近邻向量的召回方法、装置、计算机设备及存储介质,可以在客户端处于弱网环境时,自动将信息推荐从视频模式切换为语音模式,从而保证信息推荐能够流畅进行。所述技术方案如下:根据本申请的一个方面,提供了一种近邻向量的召回方法,所述方法包括:获取源向量和目标向量集的聚类结果,所述聚类结果包括至少两个类别的聚类向量集,以及所述聚类向量集的质心向量;根据所述源向量和所述聚类向量集的所述质心向量之间的第一相似度,从所述聚类向量集中确定出所述源向量的至少一个近邻向量集;根据所述源向量和所述近邻向量集中的各个候选近邻向量之间的第二相似度,从所述候选近邻向量中召回目标近邻向量。根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的近邻向量的召回方法。根据本申请的另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中任一所述的近邻向量的召回方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过获取目标向量集的聚类结果,该聚类结果包括至少两个类别的聚类向量集;根据源向量和聚类向量集的质心向量之间的第一相似度,从聚类向量集中确定出源向量的至少一个近邻向量集。采用质心向量作为聚类向量集的代表向量来进行相似度计算,仅需要按照聚类向量集的个数进行少数次的计算,就能够为源向量召回大数据量的候选近邻向量,实现了亿级的近邻向量召回。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的计算机系统的框图;图2是本申请一个示例性实施例提供的近邻向量的召回方法的流程图;图3是本申请一个示例性实施例提供的近邻向量的召回方法的原理示意图;图4是本申请另一个示例性实施例提供的近邻向量的召回方法的流程图;图5是本申请另一个示例性实施例提供的近邻向量的召回方法在并列排序时的示意图;图6是本申请另一个示例性实施例提供的近邻向量的召回方法的流程图;图7是本申请另一个示例性实施例提供的近邻向量的召回方法在未进行并列排序时的示意图;图8是本申请另一个示例性实施例提供的近邻向量的召回方法在全量排序和并列排序时的性能对比图;图9是本申请另一个示例性实施例提供的近邻向量的召回装置的框图;图10是本申请一个示例性的实施例提供的计算机设备的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。本申请提供了一种近邻向量的召回方案,该召回方案支持亿级以上数量级的近邻向量召回,而且计算性能优秀。图1是本申请一个示例性实施例提供的计算机系统100的框图。该计算机系统100包括:第一终端120、服务器140和第二终端160。第一终端120安装和运行有支持信息推荐的应用程度。该应用程序可以是支持信息推荐的资讯客户端,集成有信息推荐功能的社交客户端、集成有信息推荐功能的电子商务客户端、集成有信息推荐功能的游戏客户端、集成有信息推荐功能的其它客户端中的任意一种。第一终端120是第一用户使用的终端,本文中的客户端包括APP(Application,应用程序)客户端、网页客户端、小程序客户端、快应用客户端中的任意一种。第一终端120可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。第一终端120通过无线网络或有线网络与服务器140相连。服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的,服务器140包括处理器144和存储器142,存储器142又包括信息推荐模块1421和存储模块1422。信息推荐模块1421用于为客户端召回信息推荐。存储模块1422用于存储每个客户端的帐号和密码、用户向量或用户画像,以及每个信息的信息向量。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDK、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器140承担主要计算工作,第一终端120和第二终端160承担次要计算工作;或者,服务器140承担次要计算工作,第一终端120和第二终端160承担主要计算工作;或者,服务器140、第一终端120和第二终端160三者之间采用分布式计算架构进行协同计算。第二终端160安装和运行有支持信息推荐的应用程度。该应用程序可以是支持信息推荐的资讯客户端,集成有信息推荐功能的社交客户端、集成有信息推荐功能的电子商务客户端、集成有信息推荐功能的游戏客户端、集成有信息推荐功能的其它客户端中的任意一种。第二终端160是第二用户使用的终端,本文中的客户端包括APP客户端、网页客户端、小程序客户端、快应用客户端中的任意一种。可选地,第一终端120和第二终端160上安装的应用程序是相同的,或两个终端上安装的应用程序是不同控制系统平台的同一类型应用程序。第一终端120可以泛指多个终端中的一个,第二终端160可以泛指多个终端中的一个,本实施例仅以第一终端120和第二终端160来举例说明。第一终端120和第二终端160的设备类型相同或不同,该设备类型包括:智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。以下实施例以终端包括智能手机来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数本文档来自技高网...

【技术保护点】
1.一种近邻向量的召回方法,其特征在于,所述方法包括:/n获取源向量和目标向量集的聚类结果,所述聚类结果包括至少两个类别的聚类向量集,以及所述聚类向量集的质心向量;/n根据所述源向量和所述聚类向量集的所述质心向量之间的第一相似度,从所述聚类向量集中确定出所述源向量的至少一个近邻向量集;/n根据所述源向量和所述近邻向量集中的各个候选近邻向量之间的第二相似度,从所述候选近邻向量中召回目标近邻向量。/n

【技术特征摘要】
1.一种近邻向量的召回方法,其特征在于,所述方法包括:
获取源向量和目标向量集的聚类结果,所述聚类结果包括至少两个类别的聚类向量集,以及所述聚类向量集的质心向量;
根据所述源向量和所述聚类向量集的所述质心向量之间的第一相似度,从所述聚类向量集中确定出所述源向量的至少一个近邻向量集;
根据所述源向量和所述近邻向量集中的各个候选近邻向量之间的第二相似度,从所述候选近邻向量中召回目标近邻向量。


2.根据权利要求1所述的方法,其特征在于,所述按照所述第一相似度由高到低的顺序,从所述聚类向量集中确定出所述源向量的至少一个近邻向量集,包括:
计算所述源向量和所述聚类向量集的所述质心向量之间的第一相似度;
按照所述第一相似度由高到低的顺序,将排序在前n个的聚类向量集确定为所述源向量的n个近邻向量集,n为正整数。


3.根据权利要求2所述的方法,其特征在于,所述聚类结果还包括:所述聚类向量集中的目标向量的个数;
所述按照所述第一相似度由高到低的顺序,将排序在前n个聚类向量集确定为所述源向量的至少一个近邻向量集,包括:
按照所述第一相似度由高到低的顺序,将排序在第n个的聚类向量集添加至所述源向量的近邻向量集,n的起始值为1;
计算前i个聚类向量集中的目标向量的个数总和;
响应于所述个数总和小于所述目标召回数量,令n等于n+1,再次执行所述将排序在第i个的聚类向量集添加至所述源向量的近邻向量集中的步骤;
响应于所述个数总和大于或等于所述目标召回数量,得到所述源向量的n个近邻向量集。


4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述源向量和所述近邻向量集中的各个近邻向量之间的第二相似度,从所述近邻向量中召回目标近邻向量,包括:
计算至少两个所述近邻向量集相对于所述源向量之间的相似度分布;
按照所述相似度分布将至少两个所述近邻向量集划分为m个组,不同组对应不同的相似度分布分段;
将所述m个组分配至并列的m个计算节点中进行排序,所述排序包括根据所述源向量和所述近邻向量集中的各个近邻向量之间的第二相似度对所述近邻向量进行排序;
将所述m个计算节点的排序结果按照所述相似度分布分段进行拼接,得到全局排序结果;
将所述全局排序结果中的前q个近邻向量,召回为所述源向量的目标近邻向量。


5.根据权利要求4所述的方法,其特征在于,所述计算至少两个所述近邻向量集...

【专利技术属性】
技术研发人员:洪立涛
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1