【技术实现步骤摘要】
地址匹配方法及装置
本申请涉及一种地址匹配方法及装置,属于计算机
技术介绍
中文地名的书写方法为按顺序从大到小范围地书写各级区域地址。现有的中文地址匹配或识别方法大多直接采用语义相似度类型的方法来计算地址间的匹配度,这类方式主要分为转化为统计词频的方法,或是直接通过粗糙地计算地址在语义上整体相似度。而现有的方法受限于中文连续无分隔空间特性以及表述不一等因素影响,对各级行政区的分割边界较不明显,且同一个地名多种表述的使用习惯也大大加深了匹配的难度。除此之外,单纯从语义角度来计算地名的相似度,而没有其它额外的校验机制对地址的同一性进行验证,会在一定程度上影响匹配的准确性。
技术实现思路
本申请提供了一种地址匹配方法及装置,可以解决现有的地址匹配方法的匹配结果不准确的问题。本申请提供如下技术方案:第一方面,提供了一种地址匹配方法,所述方法包括:获取参考地址的第一中文信息和待匹配地址的第二中文信息;确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二 ...
【技术保护点】
1.一种地址匹配方法,其特征在于,所述方法包括:/n获取参考地址的第一中文信息和待匹配地址的第二中文信息;/n确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标;/n将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果;/n对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;/n基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配。/n
【技术特征摘要】
1.一种地址匹配方法,其特征在于,所述方法包括:
获取参考地址的第一中文信息和待匹配地址的第二中文信息;
确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标;
将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果;
对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;
基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配。
2.根据权利要求1所述的方法,其特征在于,所述第二地理坐标的数量为n个,所述n为大于1的整数;所述将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果,包括:
从n个第二地理坐标中确定与所述第一地理坐标距离最近的第二地理坐标;
将所述第一地理坐标与所述距离最近的第二地理坐标进行匹配,得到所述位置匹配结果。
3.根据权利要求1所述的方法,其特征在于,所述第二地理坐标的数量为n个,所述n为大于1的整数;所述将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果,包括:
将所述第一地理坐标为中心位置、n个第二地理坐标为观测位置,确定所述中心位置与所述观测位置之间的第一欧式距离;
将n个第二地理坐标对应的第一欧式距离与预设距离阈值进行比较,确定所述第一欧式距离小于所述预设距离阈值的第二地理坐标;
将所述第一地理坐标与所述第一欧式距离小于所述预设距离阈值的第二地理坐标进行匹配,得到位置匹配结果。
4.根据权利要求1所述的方法,其特征在于,所述确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标,包括:
将所述第一中文信息输入地理编码服务接口,得到所述第一地理坐标;
将所述第二中文信息输入所述地理编码服务接口,得到所述第二地理坐标。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果,包括:
获取地址分段模型,所述地址分段模型使用所述待匹配地址所属区域的行政区预料进行训练得到;
对所述第一中文信息和所述第二中文信息分别进行行政区域分段,得到分段后的地址信息;
获取Word2Vec语言模型,所述Word2Vec语言模型是使用所述行政区语料进行训练得到的;
将所述第一中文信息的分段后的地址信息输入所述Word2Vec语言模型,得到每个分段后的地址信息对应的第一向量值;
将所述第二中文信息的分段后的地址信息输入所述Word2Vec语言模型,得到每个分段后的地址信息对应的第二向量值;
对所述第一中文信息中每个分段后的地址信息对应的第一向量值与所述第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配,得到所述文本匹配结果。
6.根据权利要求5所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:李刚民,倪蘋,李雨茗,白旭明,
申请(专利权)人:西交利物浦大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。