相似度确定方法、相似度预测模型训练方法及装置制造方法及图纸

技术编号:37968142 阅读:7 留言:0更新日期:2023-06-30 09:43
本公开提供了相似度确定方法、相似度预测模型训练方法及装置。本公开涉及互联网技术领域,尤其涉及智能搜索、智能匹配、智能布局、智能推荐等人工智能技术领域。具体实现方案为:获取第一网点记录和第二网点记录;确定第一网点记录的第一特征和第二网点记录的第二特征,第一特征和第二特征均包括第一类特征和第二类特征;确定第一类特征和第二类特征各自对应的目标权重;将第一类特征和第二类特征各自对应的目标权重,以及第一特征和第二特征输入相似度预测模型,获取由相似度预测模型输出的第一网点记录和第二网点记录的相似度。根据本公开的方案,能够提高相似度的预测准确性。能够提高相似度的预测准确性。能够提高相似度的预测准确性。

【技术实现步骤摘要】
相似度确定方法、相似度预测模型训练方法及装置


[0001]本公开涉及互联网
,尤其涉及智能搜索、智能匹配、智能布局、智能推荐等人工智能


技术介绍

[0002]随着互联网技术的飞速发展,快消行业也逐渐地产生。在快消行业中,存在着很多网点和销售点,这些网点和销售点数量多,且网点的名称和地址有时也很相似,这导致出现了部分网点的实际信息与数据库中的信息匹配度较低。

技术实现思路

[0003]本公开提供了一种相似度确定方法、相似度预测模型训练方法及装置。
[0004]根据本公开的第一方面,提供了一种相似度确定方法,包括:获取第一网点记录和第二网点记录;确定第一网点记录的第一特征和第二网点记录的第二特征,该第一特征和该第二特征均包括第一类特征和第二类特征,该第一类特征为可调权重的特征,该第二类特征为不可调权重的特征;确定第一类特征和第二类特征各自对应的目标权重;将第一类特征和第二类特征各自对应的目标权重,以及第一特征和第二特征输入相似度预测模型,获取由相似度预测模型输出的第一网点记录和第二网点记录的相似度。
[0005]根据本公开的第二方面,提供了一种相似度预测模型训练方法,包括:获取待训练数据,待训练数据包括第一网点记录样本的第一特征和第二网点记录样本的第二特征,以及第一网点记录样本和第二网点记录样本的相似度真值;将第一网点记录样本的第一特征和第二网点记录样本的第二特征输入到待训练模型,得到待训练模型输出的第一网点记录样本和第二网点记录样本的相似度预测值;基于第一网点记录样本和第二网点记录样本的相似度预测值,以及第一网点记录样本和第二网点记录样本的相似度真值,对待训练模型进行训练,获得相似度预测模型。
[0006]根据本公开的第三方面,提供了一种相似度确定装置,包括:第一获取模块,用于获取第一网点记录和第二网点记录;第一确定模块,用于确定第一网点记录的第一特征和第二网点记录的第二特征,第一特征和第二特征均包括第一类特征和第二类特征,第一类特征为可调权重的特征,第二类特征为不可调权重的特征;第二确定模块,用于确定第一类特征和第二类特征各自对应的目标权重;第二获取模块,用于将第一类特征和第二类特征各自对应的目标权重,以及第一特征和第二特征输入相似度预测模型,获取由相似度预测模型输出的第一网点记录和第二网点记录的相似度。
[0007]根据本公开的第四方面,提供了一种相似度预测模型的训练装置,包括:第四获取模块,用于获取待训练数据,待训练数据包括第一网点记录样本的第一特征和第二网点记录样本的第二特征,以及第一网点记录样本和第二网点记录样本的相似度真值;预测模块,用于将第一网点记录样本的第一特征和第二网点记录样本的第二特征输入到待训练模型,得到待训练模型输出的第一网点记录样本和第二网点记录样本的相似度预测值;训练模
块,用于基于第一网点记录样本和第二网点记录样本的相似度预测值,以及第一网点记录样本和第二网点记录样本的相似度真值,对待训练模型进行训练,获得相似度预测模型。
[0008]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;与至少一个处理器通信连接的存储器;存储器存储有可以被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面提供的相似度确定方法和/或第二方面提供的相似度预测模型训练方法。
[0009]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行第一方面提供的相似度确定方法和/或第二方面提供的相似度预测模型训练方法。
[0010]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现第一方面提供的相似度确定方法和/或第二方面提供的相似度预测模型训练方法。
[0011]根据本公开的技术方案,能够提高相似度的预测准确性。
[0012]上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
[0013]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
[0014]图1是根据本公开实施例的相似度确定方法的流程示意图;
[0015]图2是根据本公开实施例的基于目标网点数量挖掘空白网点的流程示意图;
[0016]图3是根据本公开实施例的基于相似度预测模型的特征参数信息确定各特征的权重的示意图;
[0017]图4是根据本公开实施例的相似度预测模型训练方法的流程示意图;
[0018]图5是根据本公开实施例的通过词典方式挖掘网点记录样本的特征的示意图;
[0019]图6是根据本公开实施例的相似度预测模型训练的架构示意图;
[0020]图7是根据本公开实施例的训练相似度预测模型的总体流程示意图;
[0021]图8是根据本公开实施例的相似度确定装置的结构示意图;
[0022]图9是根据本公开实施例的相似度预测模型训练装置的结构示意图;
[0023]图10是根据本公开实施例的相似度确定方法的场景示意图;
[0024]图11是根据本公开实施例的相似度预测模型训练方法的场景示意图;
[0025]图12是用来实现本公开实施例的相似度确定方法和/或相似度预测模型训练方法的电子设备的结构示意图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]本公开的说明书实施例和权利要求书及上述附图中的术语“第一”“第二”和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028]以便利店铺货场景为例,通常由用户上传第一网点记录,该第一网点记录包括网点的名称和网点地址。基于第一网点查询兴趣点(Point of Interest,POI)数据库得到第二网点记录。相关技术中,通过测量第一网点记录与第二网点记录之间的相关性,并基于手动设置阈值等方法来确定两者的相似层级;或是,比较第一网点记录与第二网点记录各个地址元素,并基于地址元素层次结构和网点店名层次结构来确定两者的匹配层级本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种相似度确定方法,包括:获取第一网点记录和第二网点记录;确定所述第一网点记录的第一特征和所述第二网点记录的第二特征,所述第一特征和所述第二特征均包括第一类特征和第二类特征,所述第一类特征为可调权重的特征,所述第二类特征为不可调权重的特征;确定所述第一类特征和所述第二类特征各自对应的目标权重;将所述第一类特征和所述第二类特征各自对应的目标权重,以及所述第一特征和所述第二特征输入相似度预测模型,获取由所述相似度预测模型输出的所述第一网点记录和所述第二网点记录的相似度。2.根据权利要求1所述的方法,还包括:在所述第一网点记录与所述第二网点记录的相似度超出预设相似度阈值的情况下,将所述第一网点记录与所述第二网点记录进行归一化处理。3.根据权利要求1所述的方法,还包括:获取目标网点数量;根据所述第一网点记录包括的第一目标网点与所述第二网点记录包括的第二目标网点的相似度,确定已铺设的目标网点的数量和地址;基于已铺设的目标网点的数量和地址,确定在地图预设区域范围内可铺设的空白网点的数量和地址。4.根据权利要求1所述的方法,其中,所述确定所述第一类特征和所述第二类特征各自对应的目标权重,包括:获取所述相似度预测模型的特征参数信息;基于所述特征参数信息确定所述第一类特征和所述第二类特征各自对应的默认权重;将所述第二类特征对应的默认权重,确定为所述第二类特征的目标权重;获取权重分配信息,所述权重分配信息用于指示所述第一类特征包括的各特征的权重比例;基于所述权重分配信息和所述第一类特征对应的默认权重,确定所述第一类特征的目标权重。5.一种相似度预测模型训练方法,包括:获取待训练数据,所述待训练数据包括第一网点记录样本的第一特征和第二网点记录样本的第二特征,以及所述第一网点记录样本和所述第二网点记录样本的相似度真值;将所述第一网点记录样本的第一特征和第二网点记录样本的第二特征输入到待训练模型,得到所述待训练模型输出的所述第一网点记录样本和所述第二网点记录样本的相似度预测值;基于所述第一网点记录样本和所述第二网点记录样本的所述相似度预测值,以及所述第一网点记录样本和所述第二网点记录样本的相似度真值,对所述待训练模型进行训练,获得相似度预测模型。6.根据权利要求5所述的方法,还包括:从网点记录数据库获取多个网点记录文本;利用特征获取模型解析所述多个网点记录文本,得到所述第一网点记录样本的第一特
征和所述第二网点记录样本的第二特征。7.根据权利要求5所述的方法,其中,所述第一特征和所述第二特征均包括网点店名特征、语义特征和渠道特征;所述方法还包括:基于网点店名领域词词典获取所述第一网点记录样本和所述第二网点记录样本分别对应的网点店名特征;基于归一化词词典获取所述第一网点记录样本和所述第二网点记录样本分别对应的语义特征;基于渠道匹配词典获取所述第一网点记录样本和所述第二网点记录样本分别对应的渠道特征。8.根据权利要求5所述的方法,其中,所述将所述第一网点记录样本的第一特征和第二网点记录样本的第二特征输入到待训练模型,得到所述待训练模型输出的所述第一网点记录样本和所述第二网点记录样本的相似度预测值,包括:基于所述第一网点记录样本的第一特征中的地址文本特征和第二网点记录样本的第二特征中的地址文本特征,确定所述第一网点记录样本和所述第二网点记录样本的地址文本相似度预测值;基于所述第一网点记录样本的第一特征中的结构化地址特征和第二网点记录样本的第二特征中的结构化地址特征,确定所述第一网点记录样本和所述第二网点记录样本的结构化地址相似度预测值;基于所述第一网点记录样本的第一特征中的网点店名特征和第二网点记录样本的第二特征中的网点店名特征,确定所述第一网点记录样本和所述第二网点记录样本的网点店名相似度预测值;基于所述第一网点记录样本的第一特征中的语义特征和第二网点记录样本的第二特征中的语义特征,确定所述第一网点记录样本和所述第二网点记录样本的语义相似度预测值;基于所述第一网点记录样本的第一特征中的渠道特征和第二网点记录样本的第二特征中的渠道特征,确定所述第一网点记录样本和所述第二网点记录样本的渠道相似度预测值;基于所述第一网点记录样本的第一特征中的位置特征和第二网点记录样本的第二特征中的位置特征,确定所述第一网点记录样本和所述第二网点记录样本的空间距离相似度预测值;基于所述地址文本相似度预测值、所述结构化地址相似度预测值、所述网点店名相似度预测值、所述语义相似度预测值、所述渠道相似度预测值和所述空间距离相似度预测值至少之一,确定所述第一网点记录样本和所述第二网点记录样本的相似度预测值。9.一种相似度确定装置,包括:第一获取模块,用于获取第一网点记录和第二网点记录;第一确定模块,用于确定所述第一网点记录的第一特征和所述第二网点记录的第二特征,所述第一特征和所述第二特征均包括第一类特征和第二类特征,所述第一类特征为可调权重的特征,所述第二类特征为不可调权重的特征;
第二确定模块,用于确定所述第一类特征和所述第二类特征各自对应的目标权重;第二获取模块,用于将所述第一类特征和所述第二类特征...

【专利技术属性】
技术研发人员:余金林周小强黄硕陈永锋何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1