【技术实现步骤摘要】
POI融合、POI融合阈值确定方法、装置、设备及介质
[0001]本申请要求在2020年10月29日提交中国专利局、申请号为202011182458.5的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
[0002]本专利技术实施例涉及图像处理领域,尤其涉及一种POI融合、POI融合阈值确定方法、装置、设备及介质。
技术介绍
[0003]随着社会的快速发展,数据出现了爆炸式的增长。随之而来的,在不同的社会领域中产生了多家数据提供商,他们将自己涉足的领域进行数据整合,对外提供他们的数据服务。
[0004]目前可以采用人工的方式进行数据整合。
[0005]上述方法效率低下,同时人工成本高。
技术实现思路
[0006]本专利技术实施例提供一种POI融合、POI融合阈值确定方法、装置、设备及介质,可以降低POI数据整合的人工成本,以及提高POI数据整合的效率。
[0007]第一方面,本专利技术实施例提供了一种POI融合方法,包括:
[0008]获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
[0009]确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
[0010]按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
[0011]根据各所述第一主POI的第一融合类型,存储各所述第一主P ...
【技术保护点】
【技术特征摘要】
1.一种POI融合方法,其特征在于,包括:获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值,包括:根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集;根据所述第一POI融合集,确定各所述单项匹配方法对应的融合阈值集合;对所述各单项匹配方法及各所述单项匹配方法对应的融合阈值集合进行排列组合,得到组合匹配方法;计算各所述组合匹配方法的匹配正确率和匹配错误率;根据预设的第一匹配错误率阈值、所述匹配正确率和所述匹配错误率,在各所述组合匹配方法中筛选得到目标匹配方法;将所述目标匹配方法中单项匹配方法顺序确定为匹配方法顺序,将各所述单项匹配方法对应的阈值,确定为所述匹配方法顺序中单项匹配方法对应的融合阈值。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集,包括:对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;对所述主POI源进行抽样;以抽样得到的目标主POI为圆心,以常识距离阈值为半径,确定第一圆,并确定所述候选POI源中处于所述第一圆范围内的目标候选POI,形成目标数据集;在所述候选POI源中处于所述第一圆范围内的目标候选POI为空的情况下,在所述目标数据集中剔除对应的目标主POI;获取所述目标数据集中的目标主POI,与所述候选POI源中处于所述第一圆范围内的目标候选POI之间的人工融合校验结果;在所述目标数据集中剔除人工融合校验结果为失败的所述目标主POI和处于剔除的目标主POI确定的第一圆范围内的目标候选POI,得到第一POI融合集。4.根据权利要求2所述的方法,其特征在于,所述单项匹配方法包括名称匹配方法或地址匹配方法;所述确定所述单项匹配方法对应的融合阈值集合,包括:根据所述第一POI融合集确定检索距离阈值;根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;
根据目标领域的停用词,计算所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度,所述停用词包括名称停用词或地址停用词,所述最大相似度包括名称最大相似度或地址最大相似度,所述匹配相似度包括名称匹配相似度或地址匹配相似度;根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,并生成所述单项匹配方法对应的融合阈值集合。5.根据权利要求4所述的方法,其特征在于,根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,包括:根据所述第二POI融合集中每个第二主POI对应的匹配相似度,将各所述第二主POI划分到预设的相似度区间内;在各所述预设的相似度区间内,统计最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI数量;根据在各所述预设的相似度区间内第二主POI数量,得到不同预设的相似度区间下的匹配错误率;根据不同预设的相似度区间下的匹配错误率和预设的第二匹配错误率阈值得到融合阈值。6.根据权利要求1所述的方法,其特征在于,所述确定各所述第一主POI的第一融合类型,包括:在各所述第一主POI中选择当前POI,并检测所述当前POI是否存在第一候选POI;在所述当前POI不存在第一候选POI的情况下,确定所述当前POI的第一融合类型为插入类型;在所述当前POI存在第一候选POI的情况下,按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述当前POI匹配的第一候选POI;在存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为匹配类型;在不存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为人工类型;返回执行在各所述第一主POI中选择当前POI的步骤,直至全部第一主POI确定完成。7.根据权利要求6所述的方法,其特征在于,所述确定所述当前POI的第一融合类型为匹配类型,包括:在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中存在同源POI的情况下,将所述当前POI的第一融合类型确定为人工类型;在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中不存在同源POI的情况下,确定所述当前POI的第一融合类型为匹配类型。8.根据权利要求6或7所述的方法,其特征在于,所述确定所述当前POI的第一融合类型为匹配类型,包括:
将所述存在匹配关系的第一候选POI确定为反向第一主POI;确定所述反向第一主POI对应的反向第一候选POI;依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述反向第一主POI存在匹配关系的反向第一候选POI;在所述存在匹配关系的反向第一候选POI为所述当前POI的情况下,将所述当前POI的第一融合类型确定为匹配类型;在所述存在匹配关系的反向第一候选POI不为所述当前POI,或者所述反向第一主POI不存在匹配关系的反向第一候选POI的情况下,将所述当前POI的第一融合类型确定为人工类型。9.根据权利要求1所述的方法,其特征在于,所述根据各所述第一主POI的第一融合类型,存储各所述第一主...
【专利技术属性】
技术研发人员:李明凯,刘凡华,苏畅,孙立野,肖健,李根明,
申请(专利权)人:沈阳美行科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。