【技术实现步骤摘要】
相似度确定方法、相似度预测模型训练方法及装置
[0001]本公开涉及互联网
,尤其涉及智能搜索、智能匹配、智能布局、智能推荐等人工智能
技术介绍
[0002]随着互联网技术的飞速发展,快消行业也逐渐地产生。在快消行业中,存在着很多网点和销售点,这些网点和销售点数量多,且网点的名称和地址有时也很相似,这导致出现了部分网点的实际信息与数据库中的信息匹配度较低。
技术实现思路
[0003]本公开提供了一种相似度确定方法、相似度预测模型训练方法及装置。
[0004]根据本公开的第一方面,提供了一种相似度确定方法,包括:获取第一网点记录和第二网点记录;确定第一网点记录的第一特征和第二网点记录的第二特征,该第一特征和该第二特征均包括第一类特征和第二类特征,该第一类特征为可调权重的特征,该第二类特征为不可调权重的特征;确定第一类特征和第二类特征各自对应的目标权重;将第一类特征和第二类特征各自对应的目标权重,以及第一特征和第二特征输入相似度预测模型,获取由相似度预测模型输出的第一网点记录和第二网点记录的相似度。
[0005]根据本公开的第二方面,提供了一种相似度预测模型训练方法,包括:获取待训练数据,待训练数据包括第一网点记录样本的第一特征和第二网点记录样本的第二特征,以及第一网点记录样本和第二网点记录样本的相似度真值;将第一网点记录样本的第一特征和第二网点记录样本的第二特征输入到待训练模型,得到待训练模型输出的第一网点记录样本和第二网点记录样本的相似度预测值;基于第一网点记录样本和第 ...
【技术保护点】
【技术特征摘要】
1.一种相似度确定方法,包括:获取第一网点记录和第二网点记录;确定所述第一网点记录的第一特征和所述第二网点记录的第二特征,所述第一特征和所述第二特征均包括第一类特征和第二类特征,所述第一类特征为可调权重的特征,所述第二类特征为不可调权重的特征;确定所述第一类特征和所述第二类特征各自对应的目标权重;将所述第一类特征和所述第二类特征各自对应的目标权重,以及所述第一特征和所述第二特征输入相似度预测模型,获取由所述相似度预测模型输出的所述第一网点记录和所述第二网点记录的相似度。2.根据权利要求1所述的方法,还包括:在所述第一网点记录与所述第二网点记录的相似度超出预设相似度阈值的情况下,将所述第一网点记录与所述第二网点记录进行归一化处理。3.根据权利要求1所述的方法,还包括:获取目标网点数量;根据所述第一网点记录包括的第一目标网点与所述第二网点记录包括的第二目标网点的相似度,确定已铺设的目标网点的数量和地址;基于已铺设的目标网点的数量和地址,确定在地图预设区域范围内可铺设的空白网点的数量和地址。4.根据权利要求1所述的方法,其中,所述确定所述第一类特征和所述第二类特征各自对应的目标权重,包括:获取所述相似度预测模型的特征参数信息;基于所述特征参数信息确定所述第一类特征和所述第二类特征各自对应的默认权重;将所述第二类特征对应的默认权重,确定为所述第二类特征的目标权重;获取权重分配信息,所述权重分配信息用于指示所述第一类特征包括的各特征的权重比例;基于所述权重分配信息和所述第一类特征对应的默认权重,确定所述第一类特征的目标权重。5.一种相似度预测模型训练方法,包括:获取待训练数据,所述待训练数据包括第一网点记录样本的第一特征和第二网点记录样本的第二特征,以及所述第一网点记录样本和所述第二网点记录样本的相似度真值;将所述第一网点记录样本的第一特征和第二网点记录样本的第二特征输入到待训练模型,得到所述待训练模型输出的所述第一网点记录样本和所述第二网点记录样本的相似度预测值;基于所述第一网点记录样本和所述第二网点记录样本的所述相似度预测值,以及所述第一网点记录样本和所述第二网点记录样本的相似度真值,对所述待训练模型进行训练,获得相似度预测模型。6.根据权利要求5所述的方法,还包括:从网点记录数据库获取多个网点记录文本;利用特征获取模型解析所述多个网点记录文本,得到所述第一网点记录样本的第一特
征和所述第二网点记录样本的第二特征。7.根据权利要求5所述的方法,其中,所述第一特征和所述第二特征均包括网点店名特征、语义特征和渠道特征;所述方法还包括:基于网点店名领域词词典获取所述第一网点记录样本和所述第二网点记录样本分别对应的网点店名特征;基于归一化词词典获取所述第一网点记录样本和所述第二网点记录样本分别对应的语义特征;基于渠道匹配词典获取所述第一网点记录样本和所述第二网点记录样本分别对应的渠道特征。8.根据权利要求5所述的方法,其中,所述将所述第一网点记录样本的第一特征和第二网点记录样本的第二特征输入到待训练模型,得到所述待训练模型输出的所述第一网点记录样本和所述第二网点记录样本的相似度预测值,包括:基于所述第一网点记录样本的第一特征中的地址文本特征和第二网点记录样本的第二特征中的地址文本特征,确定所述第一网点记录样本和所述第二网点记录样本的地址文本相似度预测值;基于所述第一网点记录样本的第一特征中的结构化地址特征和第二网点记录样本的第二特征中的结构化地址特征,确定所述第一网点记录样本和所述第二网点记录样本的结构化地址相似度预测值;基于所述第一网点记录样本的第一特征中的网点店名特征和第二网点记录样本的第二特征中的网点店名特征,确定所述第一网点记录样本和所述第二网点记录样本的网点店名相似度预测值;基于所述第一网点记录样本的第一特征中的语义特征和第二网点记录样本的第二特征中的语义特征,确定所述第一网点记录样本和所述第二网点记录样本的语义相似度预测值;基于所述第一网点记录样本的第一特征中的渠道特征和第二网点记录样本的第二特征中的渠道特征,确定所述第一网点记录样本和所述第二网点记录样本的渠道相似度预测值;基于所述第一网点记录样本的第一特征中的位置特征和第二网点记录样本的第二特征中的位置特征,确定所述第一网点记录样本和所述第二网点记录样本的空间距离相似度预测值;基于所述地址文本相似度预测值、所述结构化地址相似度预测值、所述网点店名相似度预测值、所述语义相似度预测值、所述渠道相似度预测值和所述空间距离相似度预测值至少之一,确定所述第一网点记录样本和所述第二网点记录样本的相似度预测值。9.一种相似度确定装置,包括:第一获取模块,用于获取第一网点记录和第二网点记录;第一确定模块,用于确定所述第一网点记录的第一特征和所述第二网点记录的第二特征,所述第一特征和所述第二特征均包括第一类特征和第二类特征,所述第一类特征为可调权重的特征,所述第二类特征为不可调权重的特征;
第二确定模块,用于确定所述第一类特征和所述第二类特征各自对应的目标权重;第二获取模块,用于将所述第一类特征和所述第二类特征...
【专利技术属性】
技术研发人员:余金林,周小强,黄硕,陈永锋,何径舟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。