一种基于NLP词分技术的银行对公客户户名预警方法技术

技术编号:35814834 阅读:20 留言:0更新日期:2022-12-03 13:38
本发明专利技术涉及一种基于NLP词分技术的银行对公客户户名预警方法,通过字序词频从零内生构建与结构化多层场景术语(户名)相对应的专用词库;并结合行业经验知识,多维度标注词库,如行业类别、行业资质要求;词库通过更新管理机制学习新词,避免户名异常检测效力的降低;基于词库获取NLP词分结果,并与外部信息比对,若不一致,则触发相应的预警规则。与现有技术直接调用NLP结果相比,本发明专利技术将NLP词分处理流程与预警应用流程相融合,不仅提升了特定场景下NLP词分结果的精度,还显性化留存中间知识产物,更有效地支持预警规则对可疑户名进行预警,从而实现在账户开立环节加强银行账户管理义。义。义。

【技术实现步骤摘要】
一种基于NLP词分技术的银行对公客户户名预警方法


[0001]本专利技术涉及大数据安全
,尤其是涉及一种基于NLP词分技术的银行对公客户户名预警方法。

技术介绍

[0002][0003]经过分析和研究,工作人员发现,一些不法分子通过系统批量自动生成企业户名快速注册,提高注册成功率,并在银行开立账户,企业户名一旦成功注册,就能申请开立银行账户,如果又成功通过银行账户开立审核,则将进入正常使用环节,对于该账户及其交易行为的管理难度和成本都将大幅提高,但有效性却大幅降低。通常情况下,通过某一银行进行的交易行为,仅为不法操作的其中一环,故从单一银行的角度来监测数据,难以发现资金链的异常。因此,加强对账户开立环节的预警监测,从源头上堵截相关违法犯罪行为,有较高经济效益和社会意义。
[0004]NLP(自然语言处理)全称Natural Language Processing,是计算机科学和计算语言学中的一个领域,用于研究人类(自然)语言和计算机之间的相互作用。NLP 的关键是让计算机“理解”自然语言,它是人工智能AI的核心课题之一。汉语NLP 涉及理解自然语言的多种复杂技术,包括:自动分词、词性分析、句法分析和语义分析等。
[0005]目前,NLP技术在监管或预警方面应用时,主要作为关键词提取模型、分类模型,如中国专利CN202110574251.0、CN202010933855.5等。但是,开立账户时,由于企业户名与其他应用场景不同,单纯的词分、关键词提取和分类难以准确识别异常户名。

技术实现思路

[0006]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于NLP词分技术的银行对公客户户名预警方法,通过字序词频从零内生构建与结构化多层场景术语(即户名)相对应的专用词库;并结合行业经验知识,多维度标注词库,如行业类别、行业资质要求;词库通过更新管理机制学习新词,避免户名异常检测效力的降低;基于词库获取NLP词分结果,并与外部信息比对,若不一致,则触发相应的预警规则。与现有技术直接调用NLP结果相比,本专利技术将NLP词分处理流程与预警应用流程相融合,不仅提升了特定场景下NLP词分结果的精度,还显性化留存中间知识产物,更有效地支持预警规则对可疑户名进行预警,从而实现在账户开立环节加强银行账户管理,从源头上堵截相关违法行为,有较高经济效益和社会意义。
[0007]本专利技术的目的可以通过以下技术方案来实现:
[0008]一种基于NLP词分技术的银行对公客户户名预警方法,包括以下步骤:
[0009]构建针对银行对公客户户名的专用词库,包括行政区划名称词库、行业词库、字号词库和组织形式词库;
[0010]获取待辨识的银行对公客户户名,基于专用词库,使用NLP技术对银行对公客户户
名进行词分,并记录词分结果,包括行政区划名称组件、行业组件、字号组件和组织形式组件以及上述组件的次序;
[0011]获取所述银行对公客户户名的外部信息,对词分结果进行分析,若词分结果和外部信息满足预设置的预警规则,则立即将所述银行对公客户户名标记为可疑户名,否则,该银行对公客户户名为正常户名;
[0012]对专用词库进行更新和管理。
[0013]优选的,所述专用词库包括标准化构建词库过程和内生法构建词库过程,其中,标准化构建词库过程如下:
[0014]获取标准的行政区划名称规范、行业规范和组织形式规范,并将行政区划名称规范、行业规范和组织形式规范分别送入行政区划名称词库、行业词库和组织形式词库;
[0015]内生法构建词库如下:
[0016]批量获取多个银行对公客户户名;
[0017]分别将每个银行对公客户户名划分为字长为L1、L2、

、Li、

、Ln的词,得到n个字库,其中,第i个字库中存放字长为Li的词,其中,1<L1<L2<

<Ln;
[0018]分别对每个字库进行分析,得到各个字库中的词频分布;
[0019]按照预设置的筛选标准,筛选出第Ln个字库中的高频词,若词Str是第Ln个字库中高频词,则将词Str的不同字长的分词自第L1~Ln

1个字库中移除,重复此步骤,直至完成第Ln、

、L2、L1个字库的高频词筛选;
[0020]以人工复核的形式对各个字库的高频词进行审核,并将字库中的词分别送入行政区划名称词库、行业词库、字号词库和组织形式词库。
[0021]优选的,内生法构建词库过程中还包括数据标准化处理,具体为:
[0022]识别银行对公客户户名中的与中文不等长度的非中文字符,所述非中文字符包括英文、数字和特殊符号,使用替换、删除、转义、标注方式对银行对公客户户名进行标准化处理;
[0023]校验处理后的结果,若处理结果可被lag整除,则校验通过,否则,再次识别银行对公客户户名中的非中文字符并进行标准化处理,其中,lag为中文字符的长度;
[0024]将处理结果按照lag拆分为字长为lag的词,使用预设置的特殊字符词库对词进行匹配,并人工观测出现频率低于阈值的词,记录与中文等长度的非中文字符,更新特殊字符词库,并使用替换、删除、转义、标注方式对与中文等长度的非中文字符进行处理。
[0025]优选的,对银行对公客户户名进行词分包括以下步骤:
[0026]获取待辨识的银行对公客户户名,判断银行对公客户户名为单层户名或多层户名,若是单层户名,则直接对其进行词分,若是多层户名,则将其划分为多个顺序相连的单层户名后,再分别进行词分;词分过程如下:
[0027]使用组织形式词库或行政区划名称词库对户名进行匹配,确定银行对公客户户名的组织形式组件或行政区划名称组件;
[0028]在银行对公客户户名中定位组织形式组件或行政区划名称组件,使用行政区划名称词库或组织形式词库对户名的剩余部分进行匹配,确定银行对公客户户名的行政区划名称组件或组织形式组件;
[0029]在银行对公客户户名中定位组织形式组件和行政区划名称组件,使用行业词库对
户名的剩余部分进行匹配,确定银行对公客户户名的行业组件;
[0030]在银行对公客户户名中定位组织形式组件、行政区划名称组件和行业组件,将户名的剩余部分作为户名的字号组件。
[0031]优选的,判断银行对公客户户名为单层户名或多层户名具体为:
[0032]使用组织形式词库对银行对公客户户名进行匹配,在银行对公客户户名中定位匹配结果,若存在多个匹配结果,且尾部的匹配结果至少与一个非尾部的匹配结果之间存在间隔字,则所述银行对公客户户名为多层户名。
[0033]优选的,将多层户名划分为多个单层户名具体为:
[0034]获取尾部的匹配结果,向前定位到第一个与尾部匹配结果之间存在间隔字的匹配结果,将多层户名划分为尾部户名和前端待定部分,将尾部户名作为一个单层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,包括以下步骤:构建针对银行对公客户户名的专用词库,包括行政区划名称词库、行业词库、字号词库和组织形式词库;获取待辨识的银行对公客户户名,基于专用词库,使用NLP技术对银行对公客户户名进行词分,并记录词分结果,包括行政区划名称组件、行业组件、字号组件和组织形式组件以及上述组件的次序;获取所述银行对公客户户名的外部信息,对词分结果进行分析,若词分结果和外部信息满足预设置的预警规则,则立即将所述银行对公客户户名标记为可疑户名,否则,该银行对公客户户名为正常户名;对专用词库进行更新和管理。2.根据权利要求1所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,所述专用词库包括标准化构建词库过程和内生法构建词库过程,其中,标准化构建词库过程如下:获取标准的行政区划名称规范、行业规范和组织形式规范,并将行政区划名称规范、行业规范和组织形式规范分别送入行政区划名称词库、行业词库和组织形式词库;内生法构建词库如下:批量获取多个银行对公客户户名;分别将每个银行对公客户户名划分为字长为L1、L2、

、Li、

、Ln的词,得到n个字库,其中,第i个字库中存放字长为Li的词,其中,1<L1<L2<

<Ln;分别对每个字库进行分析,得到各个字库中的词频分布;按照预设置的筛选标准,筛选出第Ln个字库中的高频词,若词Str是第Ln个字库中高频词,则将词Str的不同字长的分词自第L1~Ln

1个字库中移除,重复此步骤,直至完成第Ln、

、L2、L1个字库的高频词筛选;以人工复核的形式对各个字库的高频词进行审核,并将字库中的词分别送入行政区划名称词库、行业词库、字号词库和组织形式词库。3.根据权利要求2所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,内生法构建词库过程中还包括数据标准化处理,具体为:识别银行对公客户户名中的与中文不等长度的非中文字符,所述非中文字符包括英文、数字和特殊符号,使用替换、删除、转义、标注方式对银行对公客户户名进行标准化处理;校验处理后的结果,若处理结果可被lag整除,则校验通过,否则,再次识别银行对公客户户名中的非中文字符并进行标准化处理,其中,lag为中文字符的长度;将处理结果按照lag拆分为字长为lag的词,使用预设置的特殊字符词库对词进行匹配,并人工观测出现频率低于阈值的词,记录与中文等长度的非中文字符,更新特殊字符词库,并使用替换、删除、转义、标注方式对与中文等长度的非中文字符进行处理。4.根据权利要求1所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,对银行对公客户户名进行词分包括以下步骤:获取待辨识的银行对公客户户名,判断银行对公客户户名为单层户名或多层户名,若是单层户名,则直接对其进行词分,若是多层户名,则将其划分为多个顺序相连的单层户名
后,再分别进行词分;词分过程如下:使用组织形式词库或行政区划名称词库对户名进行匹配,确定银行对公客户户名的组织形式组件或行政区划名称组件;在银行对公客户户名中定位组织形式组件或行政区划名称组件,使用行政区划名称词库或组织形式词库对户名的剩余部分进行匹配,确定银行对公客户户名的行政区划名称组件或组织形式组件;在银行对公客户户名中定位组织形式组件和行政区划名称组件,使用行业词库对户名的剩余部分进行匹配,确定银行对公客户户名的行业组件;在银行对公客户户名中定位组织形式组件、行政区划名称组件和行业组件,将户名的剩余部分作为户名的字号组件。5.根据权利要求4所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,判断...

【专利技术属性】
技术研发人员:邹思维刘杨吴轶臻丁璐赵静朱维然季与翔
申请(专利权)人:交通银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1