【技术实现步骤摘要】
一种融合类别信息的POI数据匹配方法
[0001]本专利技术涉及计算机
,具体为一种融合类别信息的POI数据匹配方法。
技术介绍
[0002]目前,POI数据匹配主要分为文字相关性匹配和语义相关性匹配,文字相关性匹配忽略了语义信息,在无法精确匹配的情况下容易造成查询项与匹配结果语义不一致。特别是对于政府机构、医院、公司等名称较长的POI数据,人们在检索的过程中往往使用简称,在召回的结果中更容易出现这个问题。此外,对于数据库中不存在的POI名称进行检索时,在召回的结果中也会存在这个问题。比如,搜索“王五饭店”,返回的结果是“王五商店”。由于能够捕获文本的语义信息,基于预训练模型的语义匹配方法受到了广泛关注。尽管预训练模型通过大规模、无监督的语料训练,捕获了文本中大量的语言联系和知识,在许多自然语言处理任务上取得了惊人的效果,成为了很多自然语言处理任务的新组件。
[0003]但是,在语言理解方面仍然存在一定的不足,由于缺少领域知识和常识知识,导致名称相近,而语义差别较大的数据得分较高。比如,“雀巢咖啡”和“雀巢咖啡机”两个POI名称仅有一字之差,使用预训练模型进行语义匹配,发现两者之间的语义非常接近。
[0004]因此,无论是文字相关性匹配还是语义相关性匹配,都存在一定的缺陷,无法很好的解决POI数据匹配问题。
[0005]基于此,提出了一种融合类别信息的POI数据匹配方法,为解决文字相关性匹配方法忽略了POI名称本身的语义信息以及语义相关性预训练匹配模型缺少常识知识和领域知识的问题提供一种 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种融合类别信息的POI数据匹配方法,其特征在于,包括以下步骤:步骤1、收集POI数据,并对数据进行预处理;步骤2、对收集到的POI数据构建全文索引;步骤3、筛选POI数据,使用文字相关性匹配,检索出多个最相关的POI名称,构建POI数据的语义匹配集;步骤4、融合POI数据类别信息,增强其语义表示;步骤5、将融合POI数据类别信息的查询项和待匹配项输入RoBERTa,捕获查询项以及待匹配项的字、词和短语之间的语义匹配信号,并把二者之间的语义关系转化为向量表示;步骤6、把二者之间的语义关系向量通过一个全连接层,计算二者的语义匹配度;步骤7、调节模型最优超参数,得到最优语义匹配模型。2.根据权利要求1所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步骤1中收集POI数据,并对数据进行预处理包括以下步骤:使用爬虫工具抓取百度地图的POI数据;去除重复、歧义的POI数据,删除POI名称中存在的空格、特殊符号,并将全角符号转化为半角符号。3.根据权利要求1所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步骤2中对收集到的POI数据构建全文索引包括以下步骤:对所述步骤1的POI数据集进行分词,得到分词后的关键词W={w1,w2,
…
,w
n
},统计出每一个关键词在POI名称中出现的次数以及那些POI名称中包含该关键词,从而构建POI数据集的全文索引。4.根据权利要求3所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步骤3中筛选POI数据,使用文字相关性匹配,检索出多个最相关的POI名称,构建POI数据的语义匹配集包括以下步骤:筛选不同类别的POI数据,不同类别的POI数量基本保持均衡,总共选取了k个POI名称,对于筛选出每一个POI名称分别作为查询语句,对于查询语句q,经过分词后得到关键词Q={q1,q2,
…
,q
n
};基于所述步骤2求出包含查询语句关键词的所有POI名称P={p1,p2,
…
,p
n
};把所有搜索出的POI名称向量及查询向量放到一个N维空间中,进行向量化表示;分别计算关键词的权重,其计算公式如下:式中表示第i个关键词的权重,n表示POI名称的数量;表示包含关键词q
i
的POI名称的数量;采用余弦相似度计算匹配度,检索出m个最相关的POI名称;从k中随机筛选出g个POI名称作为查询项以及其对应的m个相关性得分最高的召回结果,采用人工标注的方式对m个与查询项最相关的POI名称进行打分;基于g这个标注数据集,采用交互的匹配方式训练模型,并通过训练好的模型对剩余的句对进行打分,从而构造语义匹配数据集。5.根据权利要求1所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步
骤4中融合POI数据类别信息,增强其语义表示为:s
i
=p
i
+c
i
式中p
i
表示POI名称,c
i
表示相应的语义类别,s
i
技术研发人员:张红伟,闫小锋,杨任飞,张帅,崔贯勋,全文君,
申请(专利权)人:重庆理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。