一种商户名称匹配方法、装置及计算机可读存储介质制造方法及图纸

技术编号:35822703 阅读:12 留言:0更新日期:2022-12-03 13:48
本发明专利技术提供了一种商户名称匹配方法、装置及计算机可读存储介质,该方法包括:根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称;提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列;根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。利用上述方法,能够更精准实现多数据源的商户匹配。匹配。匹配。

【技术实现步骤摘要】
一种商户名称匹配方法、装置及计算机可读存储介质


[0001]本专利技术属于数据处理领域,具体涉及一种商户名称匹配方法、装置及计算机可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]商户的相关信息往往分布于多个数据源中,例如商户的基本信息以及交易信息在支付平台数据库中,而商户的工商信息需要用到外部的数据源,因此需要将不同数据源的数据进行关联操作。然而各个数据源字段都不统一,且各个数据源数据录入方式都不一样,使用常规数据库操作关联各个数据源耗时较长,且精准度一般。
[0004]因此,不同数据源之间数据难以匹配的问题是一个亟待解决的问题。

技术实现思路

[0005]针对上述现有技术中存在的问题,提出了一种商户名称匹配方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
[0006]本专利技术提供了以下方案。
[0007]第一方面,提供一种商户名称匹配方法,包括:根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称;提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列;根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。
[0008]在一种实施方式中,方法之前,还包括:获取商户名称,利用商户分类模型确定商户名称的类型,类型包括:企业商户名称和个人商户名称。
[0009]在一种实施方式中,针对个人商户名称,方法还包括:从个人商户名称中提取人名关键词;根据人名关键词并利用近似文本算法从外部数据库提取一个或多个候选商户名称;根据人名关键词从一个或多个候选商户中精准匹配出目标个人商户名称。
[0010]在一种实施方式中,根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称,还包括:利用elasticsearch数据库对企业商户名称进行模糊查询,拉取相似度排序最高前N个商户名称作为候选商户名称。
[0011]在一种实施方式中,根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,还包括:判断最长公共子序列长度是否超过企业商户名称长度的一半;若未超过企业商户名称长度的一半,则候选商户名称不匹配。
[0012]在一种实施方式中,还包括:若最长公共子序列的长度超过企业商户名称长度的一半,判断候选商户是否符合以下第一语义规则:第一语义规则包括:最长公共子序列与企业商户名称的长度相同,或者最长公共子序列与次长公共子序列的长度之和与企业商户名称的长度相同;企业商户名称包含地址词;候选商户名称去除最长公共子序列和次长公共
子序列之后,长度小于预设值和/或包含设定关键词;其中,目标企业商户名称为多个候选商户名称中唯一符合第一语义规则的候选商户名称。
[0013]在一种实施方式中,还包括:若最长公共子序列的长度超过企业商户名称长度的一半,则判断候选商户是否符合以下第二语义规则:第二语义规则包括:最长公共子序列与企业商户名称的长度相同,或者最长公共子序列与次长公共子序列的长度之和与企业商户名称的长度相同;候选商户名称包含括号并且括号位于企业商户名称之后;候选商户名称中右括号为最后一个字符;其中,目标企业商户名称为多个候选商户名称中唯一符合第二语义规则的候选商户名称。
[0014]在一种实施方式中,还包括,训练商户分类模型的步骤,包括:获取大量商户名称样本,使用jieba分词算法对商户名称样本进行分词;利用词频

逆向文件频率算法对分词后的商户名称样本进行文本向量化;将文本向量化后的商户名称样本按比例划分生成训练集及测试集;利用训练集和测试集,训练xgboost分类模型,得到商户分类模型。
[0015]在一种实施方式中,从个人商户名称中提取人名关键词,还包括:对个人商户名称进行分词;利用预先训练的词性标注模型对分词后的各个词汇进行词性标注,词性标注至少包括人名;提取词性标注为人名的词语作为人名关键词。
[0016]在一种实施方式中,还包括:判断词性标注为人名的词语的长度是否小于预设值,若不是,则不继续匹配。
[0017]在一种实施方式中,根据人名关键词并利用近似文本算法从外部数据库提取一个或多个候选商户名称,还包括:利用elasticsearch数据库对人名关键词进行模糊查询,拉取相似度排序最高前N个商户名称作为候选商户名称。
[0018]在一种实施方式中,其中,目标个人商户名称为多个候选商户名称中唯一与人名关键词完全匹配的候选商户名称。
[0019]第二方面,提供一种商户名称匹配装置,其特征在于,被配置为用于执行如第一方面的方法,包括:候选模块,根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称;提取模块,用于提取企业商户名称和每个候选商户名称之间的最长公共子序列和次长公共子序列;匹配模块,用于根据最长公共子序列和次长公共子序列,并利用语义规则判断每个候选商户名称的匹配度,以精确匹配出目标企业商户名称。
[0020]第三方面,提供一种商户名称匹配装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:如第一方面的方法。
[0021]第四方面,提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被多核处理器执行时,使得多核处理器执行如第一方面的方法。
[0022]上述实施方式的优点之一,能够实现更精准的商户名称匹配。
[0023]本专利技术的其他优点将配合以下的说明和附图进行更详细的解说。
[0024]应当理解,上述说明仅是本专利技术技术方案的概述,以便能够更清楚地了解本专利技术的技术手段,从而可依照说明书的内容予以实施。为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本专利技术的具体实施方式。
附图说明
[0025]通过阅读下文的示例性实施方式的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
[0026]图1为根据本专利技术一实施方式的商户名称匹配设备的结构示意图;
[0027]图2为根据本专利技术一实施方式的商户名称匹配方法的流程示意图;
[0028]图3为根据本专利技术一实施方式的商户名称匹配方法的流程示意图;
[0029]图4为根据本专利技术一实施方式的商户名称匹配方法的流程示意图;
[0030]图5为根据本专利技术一实施方式的商户名称分类模型的训练流程示意图;
[0031]图6为根据本专利技术一实施方式的商户名称匹配方法的流程示意图;
[0032]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种商户名称匹配方法,其特征在于,包括:根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称;提取所述企业商户名称和每个所述候选商户名称之间的最长公共子序列和次长公共子序列;根据所述最长公共子序列和所述次长公共子序列,并利用语义规则判断每个所述候选商户名称的匹配度,以精确匹配出目标企业商户名称。2.根据权利要求1所述的方法,其特征在于,所述方法之前,还包括:获取商户名称,利用商户分类模型确定所述商户名称的类型,所述类型包括:所述企业商户名称和个人商户名称。3.根据权利要求2所述的方法,其特征在于,针对所述个人商户名称,所述方法还包括:从所述个人商户名称中提取人名关键词;根据所述人名关键词并利用所述近似文本算法从外部数据库提取一个或多个候选商户名称;根据所述人名关键词从所述一个或多个候选商户中精准匹配出目标个人商户名称。4.根据权利要求1所述的方法,其特征在于,根据所述企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选商户名称,还包括:利用elasticsearch数据库对所述企业商户名称进行模糊查询,拉取相似度排序最高前N个商户名称作为所述候选商户名称。5.根据权利要求1所述的方法,其特征在于,根据所述最长公共子序列和所述次长公共子序列,并利用语义规则判断每个所述候选商户名称的匹配度,还包括:判断所述最长公共子序列长度是否超过所述企业商户名称长度的一半;若未超过所述企业商户名称长度的一半,则所述候选商户名称不匹配。6.根据权利要求5所述的方法,其特征在于,还包括:若所述最长公共子序列的长度超过所述企业商户名称长度的一半,判断所述候选商户是否符合以下第一语义规则:所述第一语义规则包括:所述最长公共子序列与所述企业商户名称的长度相同,或者所述最长公共子序列与所述次长公共子序列的长度之和与所述企业商户名称的长度相同;所述企业商户名称包含地址词;所述候选商户名称去除所述最长公共子序列和所述次长公共子序列之后,长度小于预设值和/或包含设定关键词;其中,所述目标企业商户名称为所述多个候选商户名称中唯一符合所述第一语义规则的候选商户名称。7.根据权利要求5所述的方法,其特征在于,还包括:若所述最长公共子序列的长度超过所述企业商户名称长度的一半,则判断所述候选商户是否符合以下第二语义规则:所述第二语义规则包括:所述最长公共子序列与所述企业商户名称的长度相同,或者所述最长公共子序列与所述次长公共子序列的长度之和与所述企业商户名称的长度相同;所述候选商户名称包含括号并且括号位于所述企业商户名称之后;所述候选商户名称中右括...

【专利技术属性】
技术研发人员:王欣晟刘维博杨燚李洁
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1