【技术实现步骤摘要】
基于自然语言理解的中文POI匹配方法
本专利技术涉及POI匹配
,具体为基于自然语言理解的中文POI匹配方法。
技术介绍
POI是一种代表真实地理的点状数据,POI一般包括名称、类别、经纬度、地址等基本信息,它可以代表人们感兴趣的实体如酒店、景点等。伴随着大数据与基于位置服务的电子地图的发展,网络上POI数据也出现了快速增长,以兴趣点表示的空间数据逐渐受到关注。POI对面向用户的人地关系研究有着重要的意义,作为地名地址库的重要组成部分,为智慧城市的发展提供服务;从不同来源收集的地理信息数据通常存在着冗余、不一致、歧义、冲突等问题。此外,不同的平台会为空间数据对象赋予不同的属性。例如,FaceBook通常提供签到数据,包含文本和位置信息,而百度地图会为数据提供位置信息、照片、电话等信息。另外,同一平台为同一个空间地理对象提供的属性可能存在坐标精度、时间精度、语法语义精度有所不同。如果研究人员或者地图厂商更新现有POI数据库或者提供更丰富的数据服务,需要进行POI匹配并进行数据融合才能获得更丰富的数据资源。因此,如 ...
【技术保护点】
1.基于自然语言理解的中文POI匹配方法,其特征在于,包括以下步骤:/nS1:采集POI数据;/nS2:对POI数据进行预处理;/nS3:将预处理后的POI数据进行相似度特征提取;其中,相似度特征包括空间相似度、名称字面相似度、名称词袋相似度、类别相似度、名称语义相似度和地址语义相似度;/n类别相似度的提取具体步骤为:采用分层匹配的方法,从外层开始依次对每层进行映射匹配,对比每层类别标签的语义是否相似,通过公式九计算类别相似度;公式九:
【技术特征摘要】
1.基于自然语言理解的中文POI匹配方法,其特征在于,包括以下步骤:
S1:采集POI数据;
S2:对POI数据进行预处理;
S3:将预处理后的POI数据进行相似度特征提取;其中,相似度特征包括空间相似度、名称字面相似度、名称词袋相似度、类别相似度、名称语义相似度和地址语义相似度;
类别相似度的提取具体步骤为:采用分层匹配的方法,从外层开始依次对每层进行映射匹配,对比每层类别标签的语义是否相似,通过公式九计算类别相似度;公式九:其中,N是两个类别值中的最小层数;NS是匹配数,NS取值范围为[0,N],先判断第一层类别语义是否相同,若不同,则停止此次匹配,否则匹配数NS加1,进行下一层匹配;若下一层也相同,则匹配数再加1;
名称语义相似度的提取具体步骤为:包括名称相似度的语义计算网络,语义计算网络分为四层,分别是输入层、嵌入层、注意力层和输出层;输入层用于文本的编码工作,输入的内容包括文本信息和位置信息;嵌入层采用的Transformer神经网络结构,Transformer分别对文本信息和位置信息做嵌入和编码的操作,然后经过Transformer编码器获得句子的深度语义特征,经过嵌入层后,每个词被映射到语义空间中长度为L1的向量,具体表现为:
设定输入POI名称对为:di和ti分别代表组成句子的单词,在经过嵌入层之后,句子对对应的嵌入向量为:
E_D和E_T分别为POI名称对应D和T对应的嵌入向量集合;
注意力层用于通过操作将词向量得到POI名称向量;操作包括pooling、concatenate、sum;具体表现为:当使用sum操作时,POI名称对应词向量的和H1表示POI名称向量;H1的计算公式为:H1为D对应的句向量;H2为T对应的句向量;注意力层通过scaledotattention,分别计算两个POI名称句相应的权重和表征;即同理可得H1′,H1′和H2′分别是S和T注意力机制得到的POI名称句子向量;
输出层采用余弦距离计算文本之间的相似度,损失函数采用MSE,计算公式分别为:
地址语义相似度的提取具体步骤为:对于待匹配的地址对,首先用基于规则的地址树算法进行语法匹配,若匹配,则相似度为1,若不匹配,用word2Vec+ESIM进行语义相似度计算,得到相似度分数;具体表现为:
基于处理过的地址语料库创建了一个带标签的地址数据集;数据集由100000个地址对和相应的标签;生成此数据集的步骤:
S321:随机选取地址语料库的一个子集,包含40000条地址记录;
S322:手动将所选的若干个地址记录转换,以模拟在实际场景中可能查询的非标准和不明确的地址;转换的具体过程为:同义词替换:将地名替换为街...
【专利技术属性】
技术研发人员:张先荣,
申请(专利权)人:安徽迪科数金科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。