一种融合类别信息的POI数据匹配方法组成比例

技术编号:39408770 阅读:13 留言:0更新日期:2023-11-19 16:00
本发明专利技术涉及计算机技术领域,尤其涉及一种融合类别信息的PO I数据匹配方法。本发明专利技术包括以下步骤:步骤1、收集POI数据,并对数据进行预处理;步骤2、对于无法精确匹配的POI名称,使用文字相关性匹配检索出多个最相关的PO I名称进行语义匹配。具体来说,本发明专利技术首先使用文字相关性匹配,检索出多个最相关的兴趣点;然后,融合类别信息进行语义增强;最后,基于RoBERTa的交叉编码方式,捕获查询项以及待匹配项的字、词和短语之间的语义匹配信号,计算两者的相关性得分;进而使得本发明专利技术结合了文字相关性匹配和语义相关性匹配的优势,兼顾了匹配的准确率和效率;融合类别信息,使得语义相近及类别相同的得分高,语义相近及类别不同的得分低。低。低。

【技术实现步骤摘要】
一种融合类别信息的POI数据匹配方法


[0001]本专利技术涉及计算机
,具体为一种融合类别信息的POI数据匹配方法。

技术介绍

[0002]目前,POI数据匹配主要分为文字相关性匹配和语义相关性匹配,文字相关性匹配忽略了语义信息,在无法精确匹配的情况下容易造成查询项与匹配结果语义不一致。特别是对于政府机构、医院、公司等名称较长的POI数据,人们在检索的过程中往往使用简称,在召回的结果中更容易出现这个问题。此外,对于数据库中不存在的POI名称进行检索时,在召回的结果中也会存在这个问题。比如,搜索“王五饭店”,返回的结果是“王五商店”。由于能够捕获文本的语义信息,基于预训练模型的语义匹配方法受到了广泛关注。尽管预训练模型通过大规模、无监督的语料训练,捕获了文本中大量的语言联系和知识,在许多自然语言处理任务上取得了惊人的效果,成为了很多自然语言处理任务的新组件。
[0003]但是,在语言理解方面仍然存在一定的不足,由于缺少领域知识和常识知识,导致名称相近,而语义差别较大的数据得分较高。比如,“雀巢咖啡”和“雀巢咖啡机”两个POI名称仅有一字之差,使用预训练模型进行语义匹配,发现两者之间的语义非常接近。
[0004]因此,无论是文字相关性匹配还是语义相关性匹配,都存在一定的缺陷,无法很好的解决POI数据匹配问题。
[0005]基于此,提出了一种融合类别信息的POI数据匹配方法,为解决文字相关性匹配方法忽略了POI名称本身的语义信息以及语义相关性预训练匹配模型缺少常识知识和领域知识的问题提供一种方案。

技术实现思路

[0006]本专利技术的目的在于提供以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种融合类别信息的POI数据匹配方法,包括以下步骤:
[0008]步骤1、收集POI数据,并对数据进行预处理;
[0009]步骤2、对收集到的POI数据构建全文索引;
[0010]步骤3、筛选POI数据,使用文字相关性匹配,检索出多个最相关的POI名称,构建POI数据的语义匹配集;
[0011]步骤4、融合POI数据类别信息,增强其语义表示;
[0012]步骤5、将融合POI数据类别信息的查询项和待匹配项输入RoBERTa(Robustly Optimized BERT Pretraining Approach),捕获查询项以及待匹配项的字、词和短语之间的语义匹配信号,并把二者之间的语义关系转化为向量表示;
[0013]步骤6、把二者之间的语义关系向量通过一个全连接层,计算二者的语义匹配度;
[0014]步骤7、调节模型最优超参数,得到最优语义匹配模型。
[0015]进一步的,所述步骤1中收集POI数据,并对数据进行预处理包括以下步骤:
[0016]使用爬虫工具抓取百度地图的POI数据;
[0017]去除重复、歧义的POI数据,删除POI名称中存在的空格、特殊符号,并将全角符号转化为半角符号。
[0018]进一步的,所述步骤2中对收集到的POI数据构建全文索引包括以下步骤:
[0019]对所述步骤1的POI数据集进行分词,得到分词后的关键词W={w1,w2,

,w
n
},统计出每一个关键词在POI名称中出现的次数以及那些POI名称中包含该关键词,从而构建POI数据集的全文索引。
[0020]进一步的,所述步骤3中筛选POI数据,使用文字相关性匹配,检索出多个最相关的POI名称,构建POI数据的语义匹配集包括以下步骤:
[0021]筛选不同类别的POI数据,不同类别的POI数量基本保持均衡,总共选取了k个POI名称,对于筛选出每一个POI名称分别作为查询语句,对于查询语句q,经过分词后得到关键词Q={q1,q2,

,q
n
};
[0022]基于所述步骤2求出包含查询语句关键词的所有POI名称P={p1,p2,

,p
n
};
[0023]把所有搜索出的POI名称向量及查询向量放到一个N维空间中,进行向量化表示;分别计算关键词的权重,其计算公式如下:
[0024][0025]式中表示第i个关键词的权重,n表示POI名称的数量;表示包含关键词q
i
的POI名称的数量;
[0026]采用余弦相似度计算匹配度,检索出m个最相关的POI名称;
[0027]从k中随机筛选出g个POI名称作为查询项以及其对应的m个相关性得分最高的召回结果,采用人工标注的方式对m个与查询项最相关的POI名称进行打分;
[0028]基于g这个标注数据集,采用交互的匹配方式训练模型,并通过训练好的模型对剩余的句对进行打分,从而构造语义匹配数据集。
[0029]进一步的,所述步骤5中将融合POI数据类别信息的查询项和待匹配项输入RoBERTa,具体为:
[0030][[CLS],s
i
,[SEP],s
j
,[SEP]][0031]其中“[CLS]”表示句子的开始,“[SEP]”表示句子的结尾或者两个句子的分割;
[0032]所述步骤5中捕获查询项以及待匹配项的字、词和短语之间的语义匹配信号,并把二者之间的语义关系转化为向量表示为:
[0033]γ=[β1,β2,


n
][0034]其中n为嵌入的Token数量,β
n
的计算过程如下:
[0035]对每个Token进行嵌入,得到初始化向量表示x1、x2、x3;
[0036]用x1、x2、x3分别与三个变换矩阵W
q
、W
k
、W
v
相乘,得到q、k、v,其中
[0037]查询向量q与匹配向量k相乘,得到α
11
、α
12
、α
13

[0038]对α
11
、α
12
、α
13
做Softmax归一化处理,得到计算公式如下:
[0039][0040]使用与向量v相乘,得到β
n

[0041]进一步的,所述步骤6中把二者之间的语义关系向量通过一个全连接层,计算二者的语义匹配度,具体为:
[0042]S=γW+b
[0043]式中S为语义匹配度,W为权重矩阵,b为偏置项。
[0044]进一步的,所述步骤7中调节模型最优超参数,具体为:
[0045]分别把学习率设置为2
×
10
‑5和2
×
10
‑4,批处理值分别设置为8、16、32,开展不同超参数组合下的讨论;
[0046]所述步骤7中最优语义匹配模型的筛选使用准确率、皮尔逊相关系数、斯皮尔曼等级相关系数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合类别信息的POI数据匹配方法,其特征在于,包括以下步骤:步骤1、收集POI数据,并对数据进行预处理;步骤2、对收集到的POI数据构建全文索引;步骤3、筛选POI数据,使用文字相关性匹配,检索出多个最相关的POI名称,构建POI数据的语义匹配集;步骤4、融合POI数据类别信息,增强其语义表示;步骤5、将融合POI数据类别信息的查询项和待匹配项输入RoBERTa,捕获查询项以及待匹配项的字、词和短语之间的语义匹配信号,并把二者之间的语义关系转化为向量表示;步骤6、把二者之间的语义关系向量通过一个全连接层,计算二者的语义匹配度;步骤7、调节模型最优超参数,得到最优语义匹配模型。2.根据权利要求1所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步骤1中收集POI数据,并对数据进行预处理包括以下步骤:使用爬虫工具抓取百度地图的POI数据;去除重复、歧义的POI数据,删除POI名称中存在的空格、特殊符号,并将全角符号转化为半角符号。3.根据权利要求1所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步骤2中对收集到的POI数据构建全文索引包括以下步骤:对所述步骤1的POI数据集进行分词,得到分词后的关键词W={w1,w2,

,w
n
},统计出每一个关键词在POI名称中出现的次数以及那些POI名称中包含该关键词,从而构建POI数据集的全文索引。4.根据权利要求3所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步骤3中筛选POI数据,使用文字相关性匹配,检索出多个最相关的POI名称,构建POI数据的语义匹配集包括以下步骤:筛选不同类别的POI数据,不同类别的POI数量基本保持均衡,总共选取了k个POI名称,对于筛选出每一个POI名称分别作为查询语句,对于查询语句q,经过分词后得到关键词Q={q1,q2,

,q
n
};基于所述步骤2求出包含查询语句关键词的所有POI名称P={p1,p2,

,p
n
};把所有搜索出的POI名称向量及查询向量放到一个N维空间中,进行向量化表示;分别计算关键词的权重,其计算公式如下:式中表示第i个关键词的权重,n表示POI名称的数量;表示包含关键词q
i
的POI名称的数量;采用余弦相似度计算匹配度,检索出m个最相关的POI名称;从k中随机筛选出g个POI名称作为查询项以及其对应的m个相关性得分最高的召回结果,采用人工标注的方式对m个与查询项最相关的POI名称进行打分;基于g这个标注数据集,采用交互的匹配方式训练模型,并通过训练好的模型对剩余的句对进行打分,从而构造语义匹配数据集。5.根据权利要求1所述的一种融合类别信息的POI数据匹配方法,其特征在于,所述步
骤4中融合POI数据类别信息,增强其语义表示为:s
i
=p
i
+c
i
式中p
i
表示POI名称,c
i
表示相应的语义类别,s
i

【专利技术属性】
技术研发人员:张红伟闫小锋杨任飞张帅崔贯勋全文君
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1