【技术实现步骤摘要】
处理信息的方法、装置、设备和介质
本专利技术涉及计算机领域,尤其涉及一种处理信息的方法、装置、设备和计算机存储介质,以及确定归一化兴趣点库的方法、装置、设备和计算机存储介质。
技术介绍
兴趣点(PointofInterest,POI)包括地图上的景点、政府机构、公司、商场、饭店和住宅小区等。地址数据库中存储有多个兴趣点,由于别名、地址的缩写以及错写等原因,同一个兴趣点往往有多个名称。别名:“故宫”和“紫禁城”,这种主要是由于历史原因或者非官方的名称更广传播导致。缩写:“浙江警院”和“浙江省警察学院”,这种情况在现实中普遍存在。错写:“警察学”(警察学院),“警车学院”(警察学院),这种类型大多是采集和录入的时候人工失误造成的。同一个兴趣点存在多个名称,在电商领域,快递员需要再次与收货方或发货方核实收货地址,造成送货效率的降低;在安全领域,由于一个兴趣点存在多个名称,无法及时获知名称与兴趣点的对应关系,则管理方难以基于兴趣点进行高效的管理。因此,存在以下技术问题:对于同一个兴趣点存在多个
【技术保护点】
1.一种处理信息的方法,包括:/n接收客户端发送的检索词;/n根据所述检索词中包括的兴趣点,在兴趣点库中查询所述兴趣点对应的标准兴趣点;/n发送所述标准兴趣点至所述客户端。/n
【技术特征摘要】
1.一种处理信息的方法,包括:
接收客户端发送的检索词;
根据所述检索词中包括的兴趣点,在兴趣点库中查询所述兴趣点对应的标准兴趣点;
发送所述标准兴趣点至所述客户端。
2.根据权利要求1所述的方法,其中,所述兴趣点库是预先根据标准兴趣点和同义兴趣点对生成的数据集,所述标准兴趣点根据确定为同义兴趣点对的各候选兴趣点对构建,所述同义兴趣点对基于候选兴趣点对的特征向量和预设分类器确定,所述候选兴趣点对包括两个兴趣点。
3.根据权利要求2所述的方法,其中,所述候选兴趣点对中的两个兴趣点之间的地址信息相似,或者,所述候选兴趣点对的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
4.根据权利要求2所述的方法,其中,所述候选兴趣点对的特征向量包括所述候选兴趣点对中两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
5.根据权利要求4所述的方法,其中,所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
6.根据权利要求2所述的方法,其中,所述标准兴趣点包括:
从确定为同义兴趣点对的各候选兴趣点对包括的兴趣点中,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,选出的兴趣点。
7.根据权利要求2所述的方法,其中,所述方法还包括预先生成所述预设分类器,所述预先生成所述预设分类器的步骤包括:
分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器;
其中,所述正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点;
所述负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
8.一种生成兴趣点库的方法,包括:
对待处理的各兴趣点进行筛选,以获取一个或多个候选兴趣点对,所述候选兴趣点对包括两个兴趣点;
基于所述候选兴趣点对的特征向量和预设分类器,确定所述候选兴趣点对是否为同义兴趣点对;
根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点;
将各标准兴趣点与对应的同义兴趣点对关联,生成兴趣点库。
9.根据权利要求8所述的方法,其中,所述候选兴趣点对中的两个兴趣点的地址信息相似,或者,所述候选兴趣点对中的两个兴趣点的地址信息相似、且两个兴趣点的地理距离小于或等于预设地理距离。
10.根据权利要求8所述的方法,其中,所述候选兴趣点对的特征向量包括所述候选兴趣点对中两个兴趣点的词向量,以及所述候选兴趣点对的相似度。
11.根据权利要求10所述的方法,其中,所述候选兴趣点对的相似度包括以下相似度的一种或多种:
所述候选兴趣点对的词向量相似度、所述候选兴趣点对的编辑距离和所述候选兴趣点对的地址相似度。
12.根据权利要求8所述的方法,其中,所述根据确定为同义兴趣点对的各候选兴趣点对,构建对应的标准兴趣点包括:
对确定为同义兴趣点对的各候选兴趣点对包括的兴趣点,基于以出现频率高于频率阈值和/或字符长度最长的兴趣点为标准兴趣点的预设规则,构建对应的标准兴趣点。
13.根据权利要求8所述的方法,其中,所述方法还包括预先生成所述预设分类器,所述预先生成所述预设分类器的步骤包括:
分别利用多个正样本兴趣点对和负样本兴趣点对,训练构建好的分类模型,以生成预设分类器;
其中,所述正样本兴趣点对包括两个地址信息一致、且出现频率大于频率阈值的兴趣点,或两个同一来源且地址信息高度相似的兴趣点;
所述负样本兴趣点对包括两个地址信息相似、地理距离小于预设地理距离,且相似度低的兴趣点。
14.根据权利要求8所述的方法,...
【专利技术属性】
技术研发人员:郑华飞,谢朋峻,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。