【技术实现步骤摘要】
一种基于模糊匹配算法的单位名称匹配、查找方法及装置
本专利技术涉及一种单位名称匹配、查找方法及装置,尤其是涉及一种基于模糊匹配算法的单位名称匹配、查找方法及装置。
技术介绍
当今信息技术时代背景下,各行业特别是金融行业对于客户信息的挖掘要求越来越迫切,需要客户信息更加精准,并且挖掘速度更加快捷。为了满足这个需求,引入了ES数据库,ES作为一个分布式的数据库,提供了可扩展的搜索,具有接近实时的搜索能力,并且支持大量数据的精准查询和模糊查询处理。ES模糊查询,是基于Elasticsearch自带分词方法实现的快速模糊匹配的查询方法。Elasticsearch是一个分布式的数据库,它提供了一个分布式多用户能力的全文搜索引擎,通过HTTP使用JSON进行数据索引。ES可被用作全文检索,结构化搜索,以及数据分析。通过ES自带的字典库以及分词方法,可实现快速查询库表内的相似数据。但是由于原生的分词方法较为单一,应用场景也较为单一,无法满足对多个单位名称模糊匹配并且获取相似度的业务场景。而且原生的ES模糊查询方法依赖于词库,所以无法达到对单位名称这种模糊匹配要求较高的数据精准匹配。现有技术中对单位名称查找是直接通过Elasticsearch的IK分词,对需要模糊匹配的单位名称进行分词。应用在调用ES原生的模糊匹配方法时,通过给ES数据库发送HTTP的JSON报文实现模糊匹配和查询。但是该技术仅局限于把输入的单位名称进行IK分词,分成不同的索引,然后根据索引定位到数据库内匹配到的名称。这样的匹配方法较为简单,对于一些 ...
【技术保护点】
1.一种基于模糊匹配算法的单位名称匹配方法,其特征在于,该方法包括如下步骤:/nS1、获取待匹配的两个单位名称,判定是否互相包含或者完全匹配,若是则直接输出模糊匹配分值为100,否则执行步骤S2;/nS2、对两个单位名称分别进行预处理,包括标准化处理和过滤处理;/nS3、对两个单位名称分别进行自定义分词处理获取相应的自定义分词,所述的自定义分词包括三类,分别为属性词、区域词和别名词;/nS4、基于自定义分词结果判定能否直接进行模糊匹配计算,若是则执行步骤S6,否则执行步骤S5;/nS5、对两个单位名称进行模糊匹配直接判定,若满足模糊匹配直接判定条件,则直接输出模糊匹配分值为100,否则执行步骤S6;/nS6、基于自定义分词结果计算两个单位名称中各类自定义分词的模糊匹配分值,进而将各类自定义分词的模糊匹配分值进行加权处理获取两个单位名称的模糊匹配分值。/n
【技术特征摘要】
1.一种基于模糊匹配算法的单位名称匹配方法,其特征在于,该方法包括如下步骤:
S1、获取待匹配的两个单位名称,判定是否互相包含或者完全匹配,若是则直接输出模糊匹配分值为100,否则执行步骤S2;
S2、对两个单位名称分别进行预处理,包括标准化处理和过滤处理;
S3、对两个单位名称分别进行自定义分词处理获取相应的自定义分词,所述的自定义分词包括三类,分别为属性词、区域词和别名词;
S4、基于自定义分词结果判定能否直接进行模糊匹配计算,若是则执行步骤S6,否则执行步骤S5;
S5、对两个单位名称进行模糊匹配直接判定,若满足模糊匹配直接判定条件,则直接输出模糊匹配分值为100,否则执行步骤S6;
S6、基于自定义分词结果计算两个单位名称中各类自定义分词的模糊匹配分值,进而将各类自定义分词的模糊匹配分值进行加权处理获取两个单位名称的模糊匹配分值。
2.根据权利要求1所述的一种基于模糊匹配算法的单位名称匹配方法,其特征在于,步骤S2中标准化处理包括:基于简称词库将单位名称中的简称词替换为标准词。
3.根据权利要求1所述的一种基于模糊匹配算法的单位名称匹配方法,其特征在于,步骤S2中过滤处理包括:删除单位名称中无意义的字符,基于无效词库删除单位名称中的无效词。
4.根据权利要求1所述的一种基于模糊匹配算法的单位名称匹配方法,其特征在于,步骤S4判定能够直接进行模糊匹配计算的条件包括其中任意一个:
两个单位名称的分词结果中均包含区域词,且区域词不相同;
其中一个单位名称的分词结果中包含别名词,另一个单位名称的分词结果中不包含别名词。
5.根据权利要求1所述的一种基于模糊匹配算法的单位名称匹配方法,其特征在于,步骤S5模糊匹配直接判定的具体判定包括:
S51、若两个单位名称的分词结果中均包含别名词,且别名词不相同,则执行步骤S52,否则执行步骤S53;
S52、ES分词判定:利用ES词库自带的IK分词方法对两个单位名称分别进行ES分词得到两个分词结合,将较短的分词集合记作Aset,较长的分词集合记作Bset,若Aset内的所有分词都包含在Bset中,则直接输出模糊匹配分值为100,否则对两个分词集合中的重复分词进行计数记作Cnt,同时记Aset中的分词总数为Cnaset,若Cnaset≥esLen且Cnt/Cnaset≥esPct,则直接输出模糊匹配分值为100,否则执行步骤S53,其中,esLen、esPct为设置阈值;
S53、公共词判定:将字符数较少的单位名称记作A,字符数较多的单位名称记作B,将A中每个字符依次遍历到B中...
【专利技术属性】
技术研发人员:李君,许志坚,
申请(专利权)人:交通银行股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。