一种基于索引树的企业名称匹配方法与设备组成比例

技术编号:36687436 阅读:18 留言:0更新日期:2023-02-27 19:51
本申请的目的是提供一种基于索引树的企业名称匹配方法与设备。与现有技术相比,本申请确定数据库企业名称的行政区域词及字号行业词;根据所述数据库企业名称的字号行业词建立该数据库企业名称的行政区域词对应的一个多元组,其中,所述多元组的元素为所述字号行业词中的相邻字符的全部等长组合;建立索引层级分别为所述行政区域词、所述多元组及所述数据库企业名称的索引树;根据所述索引树及获取的所述待匹配企业名称确定该待匹配企业名称对应的一个或多个匹配企业名称。通过该方法,根据企业名称的组成特点建立索引树,并以索引树的方式进行企业名称的匹配,大大提高了匹配效率及匹配的准确性。效率及匹配的准确性。效率及匹配的准确性。

【技术实现步骤摘要】
一种基于索引树的企业名称匹配方法与设备


[0001]本申请涉及计算机
,尤其涉及一种基于索引树的企业名称匹配技术。

技术介绍

[0002]现有的企业名称匹配方法需要对待匹配企业名称与数据库中的企业名称进行一一匹配判断相似程度,再基于所有的数据库中的企业名称按照相似程度进行筛选,确定一个或多个作为该待匹配企业名称的匹配结果。
[0003]同时,在对企业名称中的字号及行业内容进行匹配时,一般采用字符串相似度算法进行计算,该方式虽能较准确的确定两个企业名称中字号及行业字段的相似程度,但由于字符串相似度算法的复杂度较高,导致其执行效率较低,所需的时间成本过大。

技术实现思路

[0004]本申请的目的是提供一种基于索引树的企业名称匹配方法与设备。
[0005]根据本申请的一个方面,提供了一种基于索引树的企业名称匹配方法,其中,所述方法包括:
[0006]确定数据库企业名称的行政区域词及字号行业词;
[0007]根据所述数据库企业名称的字号行业词建立该数据库企业名称的行政区域词对应的一个多元组,其中,所述多元组的元素为所述字号行业词中的相邻字符的全部等长组合;
[0008]建立索引层级分别为所述行政区域词、所述多元组及所述数据库企业名称的索引树;
[0009]根据所述索引树及获取的所述待匹配企业名称确定该待匹配企业名称对应的一个或多个匹配企业名称。
[0010]进一步地,所述建立索引层级分别为所述行政区域词、所述多元组及所述数据库企业名称的索引树包括:
[0011]将所述行政区域词作为所述索引树的一级索引键;
[0012]将所述多元组的各个元素作为其对应的所述行政区域词的二级索引键,其中,所述二级索引键为其对应的所述一级索引键的索引值;
[0013]将同时包含所述二级索引键及其对应的所述一级索引键的数据库企业名称作为该二级索引键的索引值。
[0014]进一步地,所述确定数据库企业名称的行政区域词之后,还包括:
[0015]将所述行政区域词转换为对应的标准行政区域词;
[0016]所述将所述行政区域词作为所述索引树的一级索引键包括:
[0017]将所述标准行政区域词作为所述索引树的一级索引键。
[0018]进一步地,所述根据所述索引树及获取的所述待匹配企业名称确定该待匹配企业名称对应的一个或多个匹配企业名称包括:
[0019]确定所述待匹配企业名称的行政区域词及其对应的多元组;
[0020]根据所述索引树及所述待匹配企业名称的行政区域词及多元组确定所述待匹配企业名称的匹配词典,其中,所述匹配词典为包含一个或多个该待匹配企业名称的多元组元素的全部数据库企业名称集合;
[0021]确定所述匹配字典中的各个数据库企业名称与该匹配企业名称的多元组的第一匹配分;
[0022]根据所述第一匹配分及所述待匹配企业名称在所述匹配词典中确定一个或多个所述数据库企业名称作为所述匹配企业名称。
[0023]进一步地,所述确定数据库企业名称的行政区域词及字号行业词还包括:
[0024]确定所有数据库企业名称的组织形式词;
[0025]所述确定所述待匹配企业名称的行政区域词及字号行业词还包括:确定所述待匹配企业名称的组织形式词;
[0026]其中,预设包含n个组织形式词之间的相似度的n阶矩阵、第一阈值及第二阈值,所述根据所述第一匹配分在所述匹配词典中确定一个或多个所述索引值作为所述匹配企业名称包括:
[0027]按照所述第一阈值及所述第一匹配分在所述匹配字典中筛选一个或多个作为预选匹配企业名称;
[0028]根据所述n阶矩阵确定所述待匹配企业名称与各个预选匹配企业名称的组织形式词相似度;
[0029]确定所述待匹配企业名称与各个预选匹配企业名称的字号行业词的第二匹配分,其中,所述第二匹配分通过字符串相似度算法确定;
[0030]根据所述第一匹配分、所述组织形式相似度及所述第二匹配分确定所述待匹配企业名称与各个预选匹配企业名称的总匹配分;
[0031]根据所述第二阈值及所述总匹配分在所有预选匹配企业名称中确定一个或多个作为所述匹配企业名称。
[0032]进一步地,所述根据所述索引树及所述待匹配企业名称的行政区域词及多元组确定所述待匹配企业名称的匹配词典包括:
[0033]在所述索引树中确定所述待匹配企业名称的所述行政区域词对应的所述一级索引键;
[0034]在确定的一级索引键的索引值中确定所述待匹配企业名称的所述多元组对应的若干个二级索引键;
[0035]将确定的所有二级索引键的所述索引值集合作为所述匹配词典。
[0036]进一步地,预设初始值为0的命中数量,其中,在确定的一级索引键的索引值中确定所述待匹配企业名称的所述多元组对应的若干个二级索引键包括:
[0037]将所述待匹配企业名称的多元组元素逐个与确定的一级索引键的各个索引值进行匹配;
[0038]若该多元组元素与该确定的一级索引键的某个索引值相同,则将该一级索引键的该索引值作为所述待匹配企业名称的多元组对应的二级索引键,并将该二级索引键的索引值对应的数据库企业名称的命中数量加一;
[0039]其中,所述确定所述匹配字典中的各个数据库企业名称与该匹配企业名称的多元组的第一匹配分包括:
[0040]确定该匹配企业名称的多元组元素数量m1及所述匹配字典中的各个数据库企业名称对应的多元组元素数量m2,并获取所述匹配字典中各个数据库企业名称的命中数量m3;
[0041]所述第一匹配分
[0042]进一步地,其中,所述根据所述数据库企业名称的字号行业词建立该数据库企业名称的行政区域词对应的一个多元组之后还包括:
[0043]建立对照表,其中,所述对照表中包含数据库企业名称对应的行政区域词、字号行业词、组织形式词及多元组元素数量;
[0044]其中,所述确定所述匹配字典中的各个索引值对应的多元组元素数量m2包括:
[0045]在所述对照表中确定与所述索引值相同的数据库企业名称,并将该数据库企业名称的多元组元素数量作为所述索引值对应的多元组元素数量m2;
[0046]其中,所述根据所述n阶矩阵确定所述待匹配企业名称与各个预选匹配企业名称的组织形式词相似度之前还包括:
[0047]根据所述对照表获取各个预选匹配企业名称的组织形式词;
[0048]其中,所述确定所述待匹配企业名称与各个预选匹配企业名称的字号行业词的第二匹配分之前还包括:
[0049]根据所述对照表获取各个预选匹配企业名称的字号行业词。
[0050]进一步地,所述多元组的元素为该数据库企业名称的所述字号行业词中的相邻两个字符的全部组合。
[0051]根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述方法的操作。
...

【技术保护点】

【技术特征摘要】
1.一种基于索引树的企业名称匹配方法,其中,所述方法包括:确定数据库企业名称的行政区域词及字号行业词;根据所述数据库企业名称的字号行业词建立该数据库企业名称的行政区域词对应的一个多元组,其中,所述多元组的元素为所述字号行业词中的相邻字符的全部等长组合;建立索引层级分别为所述行政区域词、所述多元组及所述数据库企业名称的索引树;根据所述索引树及获取的所述待匹配企业名称确定该待匹配企业名称对应的一个或多个匹配企业名称。2.根据权利要求1所述的方法,其中,所述建立索引层级分别为所述行政区域词、所述多元组及所述数据库企业名称的索引树包括:将所述行政区域词作为所述索引树的一级索引键;将所述多元组的各个元素作为其对应的所述行政区域词的二级索引键,其中,所述二级索引键为其对应的所述一级索引键的索引值;将同时包含所述二级索引键及其对应的所述一级索引键的数据库企业名称作为该二级索引键的索引值。3.根据权利要求2所述的方法,其中,所述确定数据库企业名称的行政区域词之后,还包括:将所述行政区域词转换为对应的标准行政区域词;所述将所述行政区域词作为所述索引树的一级索引键包括:将所述标准行政区域词作为所述索引树的一级索引键。4.根据权利要求2或3所述的方法,其中,所述根据所述索引树及获取的所述待匹配企业名称确定该待匹配企业名称对应的一个或多个匹配企业名称包括:确定所述待匹配企业名称的行政区域词及其对应的多元组;根据所述索引树及所述待匹配企业名称的行政区域词及多元组确定所述待匹配企业名称的匹配词典,其中,所述匹配词典为包含一个或多个该待匹配企业名称的多元组元素的全部数据库企业名称集合;确定所述匹配字典中的各个数据库企业名称与该匹配企业名称的多元组的第一匹配分;根据所述第一匹配分及所述待匹配企业名称在所述匹配词典中确定一个或多个所述数据库企业名称作为所述匹配企业名称。5.根据权利要求4所述的方法,其中,所述确定数据库企业名称的行政区域词及字号行业词还包括:确定所有数据库企业名称的组织形式词;所述确定所述待匹配企业名称的行政区域词及字号行业词还包括:确定所述待匹配企业名称的组织形式词;其中,预设包含n个组织形式词之间的相似度的n阶矩阵、第一阈值及第二阈值,所述根据所述第一匹配分在所述匹配词典中确定一个或多个所述索引值作为所述匹配企业名称包括:按照所述第一阈值及所述第一匹配分在所述匹配字典中筛选一个或多个作为预选匹配企业名称;
根据所述n阶矩阵确定所述待匹配企业名称与各个预选匹配企业名称的组织形式词相似度;确定所述待匹配企业名称与各个预选匹配企业名称的字号行业词的第二匹配分,其中,所述第二匹配分通过字符串相似度算法确定;根据所述第一匹配分、所述组织形式相似度及所述第二匹配分确定所述待匹配企业名称与各个预选匹配企业名称的总...

【专利技术属性】
技术研发人员:向桥梁
申请(专利权)人:连通杭州技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1