The application relates to a method, device, computer device and storage medium for determining the similarity of interest points, the method comprises: obtaining the information of interest points of two interest points to be matched; determining the matching matrix between two interest points to be matched based on the information of interest points; determining the similarity between two interest points to be matched based on the matching matrix between two interest points to be matched Degree. The scheme provided by the application can realize end-to-end and improve the accuracy of prediction results.
【技术实现步骤摘要】
确定兴趣点相似度的方法、装置、计算机设备和存储介质
本申请涉及电子地图
,特别是涉及一种确定兴趣点相似度的方法、装置、计算机设备和存储介质。
技术介绍
在地理信息系统中,POI(PointofInterest,兴趣点)代表地图上的任意一个点,例如一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI的属性信息通常包括名称、地址、类别等数据,这些数据的来源可以有多个,如现场采集、网络抓取等,不同来源的数据在格式、文字描述等方面往往存在差异,从而在地图数据库中针对同一个POI可能存储有多条数据,导致数据冗余。为了保证POI数据的单一性,通常会判断POI数据的相似度,再根据相似度进行去重。传统方法采用浅层机器学习模型加规则来预测两个POI的相似度,在利用模型进行预测前,需要构建大量特征工程,建立不同场景的多种规则,对两个POI在每个维度是否相似进行初步判断,再利用模型对初步判断结果进行综合预测,该方法存在特征提取和规则调测难度大的问题。
技术实现思路
基于此,有必要针对传统方法的特征提取和规则调测难度大的技术问题,提供一种确定兴趣点相似度的方法、装置、计算机设备和存储介质。一种确定兴趣点相似度的方法,所述方法包括:获取两个待匹配兴趣点的兴趣点信息;基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵;基于两个所述待匹配兴趣点之间的所述匹配矩阵,确定两个所述待匹配兴趣点之间的相似度。一种确定兴趣点相似度的装置,所述装置包括:获 ...
【技术保护点】
1.一种确定兴趣点相似度的方法,包括:/n获取两个待匹配兴趣点的兴趣点信息;/n基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵;/n基于两个所述待匹配兴趣点之间的所述匹配矩阵,确定两个所述待匹配兴趣点之间的相似度。/n
【技术特征摘要】 【专利技术属性】
1.一种确定兴趣点相似度的方法,包括:
获取两个待匹配兴趣点的兴趣点信息;
基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵;
基于两个所述待匹配兴趣点之间的所述匹配矩阵,确定两个所述待匹配兴趣点之间的相似度。
2.根据权利要求1所述的方法,其特征在于,包括下述各项中的至少一项:
第一项:
所述兴趣点信息包括兴趣点名称,所述匹配矩阵包括名称向量匹配矩阵;
基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵,包括:
分别切分两个所述待匹配兴趣点的兴趣点名称,分别获得各兴趣点名称包含的各分词;
对切分后的各分词进行映射,获得各分词的分词向量;
根据两个所述兴趣点名称包含的各分词对应的分词向量,确定两个所述兴趣点之间的所述名称向量匹配矩阵,所述名称向量匹配矩阵的单元值,为相应的分词向量之间的余弦值;
第二项:
所述兴趣点信息包括兴趣点地址,所述匹配矩阵包括地址匹配矩阵;
基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵,包括:
分别切分两个所述待匹配兴趣点的兴趣点地址,分别获得各兴趣点地址包含的各级地址;
根据两个所述兴趣点名称包含的各级地址,确定两个所述兴趣点之间的所述地址匹配矩阵,所述地址匹配矩阵的单元值,为相应的各级地址之间的编辑距离;
第三项:
所述兴趣点信息包括兴趣点类别,所述匹配矩阵包括类别匹配矩阵;
基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵,包括:
分别切分两个所述待匹配兴趣点的兴趣点类别,分别获得各兴趣点类别包含的各字段类别;
根据两个所述兴趣点类别包含的各字段类别,确定两个所述兴趣点之间的所述类别匹配矩阵,所述类别匹配矩阵的单元值,为相应的各字段类别之间的编辑距离。
3.根据权利要求2所述的方法,其特征在于,还包括下述各项中的至少一项:
第一项:
所述匹配矩阵还包括名称关键词匹配矩阵;
基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵,还包括:
分别根据两个所述待匹配兴趣点的兴趣点名称,分别确定各兴趣点名称包含的关键词以及各关键词的角色类型;
根据两个所述兴趣点名称包含的各关键词及对应的角色类型,确定两个所述兴趣点名称之间的所述名称关键词匹配矩阵,所述名称关键词匹配矩阵的单元值,为相应的关键词之间的编辑距离;
第二项:
所述匹配矩阵还包括注意力匹配矩阵;
基于所述兴趣点信息,确定两个所述待匹配兴趣点之间的匹配矩阵,还包括:
分别切分两个所述待匹配兴趣点的兴趣点名称,分别获得各兴趣点名称包含的各分词;
根据各兴趣点名称切分后的各分词在兴趣点名称词库中的出现频率,获得各分词的分词权重;
根据两个所述兴趣点名称包含的各分词对应的分词权重,确定两个所述兴趣点名称之间的分词权重匹配矩阵,所述分词权重匹配矩阵的单元值,为相应的分词权重的乘积;
根据所述分词权重匹配矩阵和所述名称向量匹配矩阵,得到所述注意力匹配矩阵,所述注意力匹配矩阵的单元值,为所述分词权重匹配矩阵与所述名称向量匹配矩阵中对应的单元值的乘积;
技术研发人员:岳大威,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。