POI融合、POI融合阈值确定方法、装置、设备及介质制造方法及图纸

技术编号:30024789 阅读:57 留言:0更新日期:2021-09-11 06:53
本发明专利技术实施例公开了一种POI融合、POI融合阈值确定方法、装置、设备及介质。所述方法包括:获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。本发明专利技术实施例可以降低POI数据整合的人工成本,以及提高POI数据整合的效率。以及提高POI数据整合的效率。以及提高POI数据整合的效率。

【技术实现步骤摘要】
POI融合、POI融合阈值确定方法、装置、设备及介质
[0001]本申请要求在2020年10月29日提交中国专利局、申请号为202011182458.5的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。


[0002]本专利技术实施例涉及图像处理领域,尤其涉及一种POI融合、POI融合阈值确定方法、装置、设备及介质。

技术介绍

[0003]随着社会的快速发展,数据出现了爆炸式的增长。随之而来的,在不同的社会领域中产生了多家数据提供商,他们将自己涉足的领域进行数据整合,对外提供他们的数据服务。
[0004]目前可以采用人工的方式进行数据整合。
[0005]上述方法效率低下,同时人工成本高。

技术实现思路

[0006]本专利技术实施例提供一种POI融合、POI融合阈值确定方法、装置、设备及介质,可以降低POI数据整合的人工成本,以及提高POI数据整合的效率。
[0007]第一方面,本专利技术实施例提供了一种POI融合方法,包括:
[0008]获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
[0009]确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
[0010]按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
[0011]根据各所述第一主POI的第一融合类型,存储各所述第一主POI;
[0012]所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
[0013]第二方面,本专利技术实施例提供了一种POI融合阈值的确定方法,包括:
[0014]获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;
[0015]对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;
[0016]对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;
[0017]对所述主POI源和所述候选POI源进行融合得到第一POI融合集;
[0018]根据所述第一POI融合集确定最小距离和检索距离阈值;
[0019]根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;
[0020]根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和
第三候选POI确定匹配距离阈值。
[0021]第三方面,本专利技术实施例还提供了一种POI融合装置,包括:
[0022]全量数据集获取模块,用于获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
[0023]匹配方法顺序确定模块,用于确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
[0024]融合类型确定模块,用于按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
[0025]POI融合模块,用于根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
[0026]第四方面,本专利技术实施例还提供了一种POI融合阈值的确定装置,包括:
[0027]获取模块,用于获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;
[0028]控制处理模块,用于对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;所述控制处理模块还用于对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;所述控制处理模块还用于对所述主POI源和所述候选POI源进行融合得到第一POI融合集;所述控制处理模块还用于根据所述第一POI融合集确定最小距离和检索距离阈值;所述控制处理模块还用于根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;所述控制处理模块还用于根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值。
[0029]第五方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本专利技术实施例中任一所述的POI融合方法,或实现如本专利技术实施例中任一所述的POI融合阈值的确定方法。
[0030]第六方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的POI融合方法,或实现如本专利技术实施例中任一所述的POI融合阈值的确定方法。
[0031]本专利技术实施例通过在待融合的第一全量数据集和第二全量数据集中,确定第一主POI,确定两个数据集之间的匹配方法顺序,以及每个单项匹配方法对应的融合阈值,采用匹配方法顺序依次选择单项匹配方法以及对应的融合阈值,确定每个第一主POI第一融合类型,并根据第一融合类型对第一主POI进行存储,将存在匹配关系的第一主POI存入另一个全量数据集中匹配的POI所在的组,实现两个数据集中的POI之间的融合,解决了现有技术中人工进行POI数据整合效率低,以及成本高的问题,可以根据两个全量数据集,针对性采用匹配方法顺序确定第一主POI的融合类型,将第一主POI存储在正确的位置,以实现两个数据集中的POI之间的融合,提高POI数据的融合准确率,同时降低融合POI数据的人工成本,并提高POI数据的融合效率。
附图说明
[0032]图1是本专利技术实施例一中的一种POI融合方法的流程图;
[0033]图2a是本专利技术实施例二中的一种POI融合阈值确定方法的流程图;
[0034]图2b是本专利技术实施例二中的一个示例中对主POI源中的主POI获取对应的候选POI的示意图;
[0035]图3是本专利技术实施例三中的一种POI融合装置的结构示意图;
[0036]图4是本专利技术实施例四中的一种POI融合阈值确定装置的结构示意图;
[0037]图5是本专利技术实施例五中的一种计算机设备的结构示意图。
具体实施方式
[0038]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0039]实施例一
[0040]图1为本专利技术实施例一中的一种POI融合方法的流程图,本实施例可适用于将两个数据集的POI进行融合存储的情况,该方法可以由本专利技术实施例提供的POI融合装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中等。如图1所示,本实施例的方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种POI融合方法,其特征在于,包括:获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值,包括:根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集;根据所述第一POI融合集,确定各所述单项匹配方法对应的融合阈值集合;对所述各单项匹配方法及各所述单项匹配方法对应的融合阈值集合进行排列组合,得到组合匹配方法;计算各所述组合匹配方法的匹配正确率和匹配错误率;根据预设的第一匹配错误率阈值、所述匹配正确率和所述匹配错误率,在各所述组合匹配方法中筛选得到目标匹配方法;将所述目标匹配方法中单项匹配方法顺序确定为匹配方法顺序,将各所述单项匹配方法对应的阈值,确定为所述匹配方法顺序中单项匹配方法对应的融合阈值。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集,包括:对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;对所述主POI源进行抽样;以抽样得到的目标主POI为圆心,以常识距离阈值为半径,确定第一圆,并确定所述候选POI源中处于所述第一圆范围内的目标候选POI,形成目标数据集;在所述候选POI源中处于所述第一圆范围内的目标候选POI为空的情况下,在所述目标数据集中剔除对应的目标主POI;获取所述目标数据集中的目标主POI,与所述候选POI源中处于所述第一圆范围内的目标候选POI之间的人工融合校验结果;在所述目标数据集中剔除人工融合校验结果为失败的所述目标主POI和处于剔除的目标主POI确定的第一圆范围内的目标候选POI,得到第一POI融合集。4.根据权利要求2所述的方法,其特征在于,所述单项匹配方法包括名称匹配方法或地址匹配方法;所述确定所述单项匹配方法对应的融合阈值集合,包括:根据所述第一POI融合集确定检索距离阈值;根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;
根据目标领域的停用词,计算所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度,所述停用词包括名称停用词或地址停用词,所述最大相似度包括名称最大相似度或地址最大相似度,所述匹配相似度包括名称匹配相似度或地址匹配相似度;根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,并生成所述单项匹配方法对应的融合阈值集合。5.根据权利要求4所述的方法,其特征在于,根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,包括:根据所述第二POI融合集中每个第二主POI对应的匹配相似度,将各所述第二主POI划分到预设的相似度区间内;在各所述预设的相似度区间内,统计最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI数量;根据在各所述预设的相似度区间内第二主POI数量,得到不同预设的相似度区间下的匹配错误率;根据不同预设的相似度区间下的匹配错误率和预设的第二匹配错误率阈值得到融合阈值。6.根据权利要求1所述的方法,其特征在于,所述确定各所述第一主POI的第一融合类型,包括:在各所述第一主POI中选择当前POI,并检测所述当前POI是否存在第一候选POI;在所述当前POI不存在第一候选POI的情况下,确定所述当前POI的第一融合类型为插入类型;在所述当前POI存在第一候选POI的情况下,按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述当前POI匹配的第一候选POI;在存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为匹配类型;在不存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为人工类型;返回执行在各所述第一主POI中选择当前POI的步骤,直至全部第一主POI确定完成。7.根据权利要求6所述的方法,其特征在于,所述确定所述当前POI的第一融合类型为匹配类型,包括:在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中存在同源POI的情况下,将所述当前POI的第一融合类型确定为人工类型;在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中不存在同源POI的情况下,确定所述当前POI的第一融合类型为匹配类型。8.根据权利要求6或7所述的方法,其特征在于,所述确定所述当前POI的第一融合类型为匹配类型,包括:
将所述存在匹配关系的第一候选POI确定为反向第一主POI;确定所述反向第一主POI对应的反向第一候选POI;依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述反向第一主POI存在匹配关系的反向第一候选POI;在所述存在匹配关系的反向第一候选POI为所述当前POI的情况下,将所述当前POI的第一融合类型确定为匹配类型;在所述存在匹配关系的反向第一候选POI不为所述当前POI,或者所述反向第一主POI不存在匹配关系的反向第一候选POI的情况下,将所述当前POI的第一融合类型确定为人工类型。9.根据权利要求1所述的方法,其特征在于,所述根据各所述第一主POI的第一融合类型,存储各所述第一主...

【专利技术属性】
技术研发人员:李明凯刘凡华苏畅孙立野肖健李根明
申请(专利权)人:沈阳美行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1