商户类别信息识别方法和装置制造方法及图纸

技术编号:11134543 阅读:83 留言:0更新日期:2015-03-12 10:06
一种商户类别信息识别方法和装置,其中,所述方法包括:对导入的商户名称进行切词操作,得到所述导入的商户名称的词集;根据预设的词汇与商户类别的权值关系,匹配所述导入的商户名称的词集中的词汇所对应的商户类别的权值;所述预设的词汇与商户类别的权值关系为:对存储的商户名称数据进行切词操作,得到商户名称的词集,根据各存储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权值而得到;选取权值最高的商户类别作为商户的判定商户类别;对比所述判定商户类别和导入的商户类别是否一致,并输出判断结果。通过所述方法和装置,可以准确全面地对商户的类别信息进行识别。

【技术实现步骤摘要】

本专利技术涉及信息识别
,尤其涉及一种商户类别信息识别方法和装置
技术介绍
由于具有交易安全以及方便快捷等优点,刷卡消费已经成为越来越多人的消费习惯。着眼于消费者的这种消费心理,越来越多的商户加入到了支持刷卡消费的行列中,从而拓宽了刷卡支付的领域,也进一步促进了刷卡消费。为了支持消费者的刷卡消费,商户需要向相关机构如银行等提供相应的注册信息,例如商户类别等信息。然而在实际注册过程中,可能存在商户的商户类别注册错误,甚至虚假注册的情况。例如,商户类别代码(Merchant Category Codes,MCC)套用。所述MCC套用是指商户为了能够享受较低的费率,提供虚假的商户类别代码。由于不同的MCC码代表不同的行业,因此相应的刷卡手续费率也不同。比如餐馆的手续费率为1.25%,百货商店的手续费率为0.78%。这样,餐馆就可以套用百货商店的MCC码,从而享受0.78%的手续费率。这种MCC套用行为,不但影响了相关机构对商户信息的管理,还严重扰乱市场规律,因此需要对虚假商户类别进行甄别。在现有技术中,主要采用对刷卡支付的终端,如POS机的异常交易行为进行分析的方法,对交易行为异常的商户进行排查,进而锁定存在虚假类别的商户。但是该方法存在如下缺陷:(1)由于仅针对交易行为异常的商户进行甄别,因此该方案无法覆盖到全部商户,难以实现商户类别信息的完全甄别。(2)不同商户具有不同的经营特点,各种不同特征的交易行为纷繁复杂,仅仅使用简单的异常交易行为分析方法存在很大的局限性。因此通过异常交易的方法甄别商户类别,误判率极高。
技术实现思路
本专利技术实施例解决的问题是如何准确全面地对商户的类别信息进行识别。为解决上述问题,本专利技术实施例提供一种商户类别信息识别方法,包括:对导入的商户名称进行切词操作,得到所述导入的商户名称的词集;根据预设的词汇与商户类别的权值关系,匹配所述导入的商户名称的词集中的词汇所对应的商户类别的权值;所述预设的词汇与商户类别的权值关系为:对存储的商户名称数据进行切词操作,得到商户名称的词集,根据各存储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权值而得到;选取权值最高的商户类别作为商户的判定商户类别;对比所述判定商户类别和导入的商户类别是否一致,并输出判断结果。可选的,所述根据各存储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权值包括:计算存储的各所述商户名称的词集中的词汇在各商户类别中出现次数,将所述计算得到的次数作为相应商户类别的权值。可选的,所述根据各存储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权值包括:计算存储的各所述商户名称的词集中的词汇在各商户类别中出现次数;通过计算所述商户名称的词集中的词汇与其他商户类别的非关联度;将所述出现次数和所述与其他商户类别的非关联度的乘积,作为所述商户名称的词集中的词汇对应各商户类别的权值;其中,所述total为所有商户类别的个数,所述ti为出现所述商户名称的词集中的词汇的其他商户类别的个数。可选的,所述对存储的商户名称数据进行切词操作,得到商户名称的词集后包括:根据语义识别,过滤所述词集中的地名词汇。为了解决上述的技术问题,本专利技术实施例还公开了一种商户类别信息识别装置,包括:切词单元,用于对导入的商户名称进行切词操作,得到所述导入的商户名称的词集;匹配单元,用于根据预设的词汇与商户类别的权值关系,匹配所述导入的商户名称的词集中的词汇所对应的商户类别的权值;所述预设的词汇与商户类别的权值关系为:对存储的商户名称数据进行切词操作,得到商户名称的词集,根据各存储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权值而得到;选取单元,用于选取权值最高的商户类别作为商户的判定商户类别;对比单元,用于对比所述判定商户类别和导入的商户类别是否一致,并输出判断结果。可选的,所述商户类别信息识别装置,还包括:第一计算单元,用于计算所述预设的词汇与商户类别的权值关系,包括:计算存储的各所述商户名称的词集中的词汇在各商户类别中出现次数,将所述计算得到的次数作为相应商户类别的权值。可选的,所述商户类别信息识别装置,还包括:第二计算单元,用于计算所述预设的词汇与商户类别的权值关系,包括:计算存储的各所述商户名称的词集中的词汇在各商户类别中出现次数,并通过计算所述商户名称的词集中的词汇与其他商户类别的非关联度,将所述出现次数和所述与其他商户类别的非关联度的乘积,作为所述商户名称的词集中的词汇对应各商户类别的权值;其中,所述total为所有商户类别的个数,所述ti为出现所述商户名称的词集中的词汇的其他商户类别的个数。可选的,所述商户类别信息识别装置,还包括过滤单元,所述过滤单元用于根据语义识别,过滤所述词集中的地名词汇。与现有技术相比,本专利技术实施例的技术方案具有以下优点:通过对商户名称的划词操作,得到商户名称的词集,并根据预设的词汇与商户类别的权值关系,匹配得到所述词集中词汇对应商户类别的权值。选取权值最高时所对应的商户类别,此时的商户类别是根据商户名称,最有可能的实际商户类别。由于商户名称出现错误的可能性较低,因此可以提高甄别的准确率。并且由于不依赖于商户的交易数据,因此可以在商户登记信息的阶段就进行主动识别,预防虚假商户类型的出现,从而可以增大覆盖范围,大大提高识别的覆盖率。附图说明图1是本专利技术实施例中一种商户类别信息识别方法的流程图;图2是本专利技术实施例中预设的词汇与商户类别的权值关系的设置方法的流程图;图3是本专利技术实施例中预设的词汇与商户类别的权值关系的示意图;图4是本专利技术实施例中一种商户类别信息识别装置的结构示意图。具体实施方式为了支持消费者的刷卡消费,商户需要向相关机构如银行等提供相应的注册信息,例如商户类别等信息。然而在实际注册过程中,可能存在商户的商户类别注册错误,甚至虚假注册的情况。在现有技术中,主要采用对刷卡支付的终端,如POS机的异常交易行为进行分析的方法,对交易行为异常的商户进行排查,进而锁定存在虚假类别的商户。但是该方法存在如下缺陷:(1)由于仅针对交易行为异常的商户进行甄别,因此该方案无法覆盖到全部商户,难以实现商户类别信息的完全甄别。(2)不同商户具有不同的经营特点,各种不同特征的交易行为纷繁复杂,仅仅使用简单的异常交易行为分析方法存在本文档来自技高网
...

【技术保护点】
一种商户类别信息识别方法,其特征在于,包括:对导入的商户名称进行切词操作,得到所述导入的商户名称的词集;根据预设的词汇与商户类别的权值关系,匹配所述导入的商户名称的词集中的词汇所对应的商户类别的权值;所述预设的词汇与商户类别的权值关系为:对存储的商户名称数据进行切词操作,得到商户名称的词集,根据各存储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权值而得到;选取权值最高的商户类别作为商户的判定商户类别;对比所述判定商户类别和导入的商户类别是否一致,并输出判断结果。

【技术特征摘要】
1.一种商户类别信息识别方法,其特征在于,包括:
对导入的商户名称进行切词操作,得到所述导入的商户名称的词集;
根据预设的词汇与商户类别的权值关系,匹配所述导入的商户名称的词集
中的词汇所对应的商户类别的权值;所述预设的词汇与商户类别的权值关
系为:对存储的商户名称数据进行切词操作,得到商户名称的词集,根据
各存储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应
的权值而得到;
选取权值最高的商户类别作为商户的判定商户类别;
对比所述判定商户类别和导入的商户类别是否一致,并输出判断结果。
2.如权利要求1所述的商户类别信息识别方法,其特征在于,所述根据各存
储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权
值包括:
计算存储的各所述商户名称的词集中的词汇在各商户类别中出现次数,将
所述计算得到的次数作为相应商户类别的权值。
3.如权利要求1所述的商户类别信息识别方法,其特征在于,所述根据各存
储的商户名称的词集中的词汇在各商户类别中的分布情况,设置相应的权
值包括:
计算存储的各所述商户名称的词集中的词汇在各商户类别中出现次数;
通过计算所述商户名称的词集中的词汇与其他商户类别的非关联度;
将所述出现次数和所述与其他商户类别的非关联度的乘积,作为所述商户
名称的词集中的词汇对应各商户类别的权值;
其中,所述total为所有商户类别的个数,所述ti为出现所述商户名称的词
集中的词汇的其他商户类别的个数。
4.如权利要求1所述的商户类别信息识别方法,其特征在于,所述对存储的
商户名称数据进行切词操作,得到商户名称的词集后包括:
根据语义识别,过滤所述词集中的地名词汇。

【专利技术属性】
技术研发人员:王霏龙凯
申请(专利权)人:银联智惠信息服务上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1