【技术实现步骤摘要】
一种基于NLP词分技术的银行对公客户户名预警方法
[0001]本专利技术涉及大数据安全
,尤其是涉及一种基于NLP词分技术的银行对公客户户名预警方法。
技术介绍
[0002][0003]经过分析和研究,工作人员发现,一些不法分子通过系统批量自动生成企业户名快速注册,提高注册成功率,并在银行开立账户,企业户名一旦成功注册,就能申请开立银行账户,如果又成功通过银行账户开立审核,则将进入正常使用环节,对于该账户及其交易行为的管理难度和成本都将大幅提高,但有效性却大幅降低。通常情况下,通过某一银行进行的交易行为,仅为不法操作的其中一环,故从单一银行的角度来监测数据,难以发现资金链的异常。因此,加强对账户开立环节的预警监测,从源头上堵截相关违法犯罪行为,有较高经济效益和社会意义。
[0004]NLP(自然语言处理)全称Natural Language Processing,是计算机科学和计算语言学中的一个领域,用于研究人类(自然)语言和计算机之间的相互作用。NLP 的关键是让计算机“理解”自然语言,它是人工智能AI的核心课题之一。汉语NLP 涉及理解自然语言的多种复杂技术,包括:自动分词、词性分析、句法分析和语义分析等。
[0005]目前,NLP技术在监管或预警方面应用时,主要作为关键词提取模型、分类模型,如中国专利CN202110574251.0、CN202010933855.5等。但是,开立账户时,由于企业户名与其他应用场景不同,单纯的词分、关键词提取和分类难以准确识别异常户名。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,包括以下步骤:构建针对银行对公客户户名的专用词库,包括行政区划名称词库、行业词库、字号词库和组织形式词库;获取待辨识的银行对公客户户名,基于专用词库,使用NLP技术对银行对公客户户名进行词分,并记录词分结果,包括行政区划名称组件、行业组件、字号组件和组织形式组件以及上述组件的次序;获取所述银行对公客户户名的外部信息,对词分结果进行分析,若词分结果和外部信息满足预设置的预警规则,则立即将所述银行对公客户户名标记为可疑户名,否则,该银行对公客户户名为正常户名;对专用词库进行更新和管理。2.根据权利要求1所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,所述专用词库包括标准化构建词库过程和内生法构建词库过程,其中,标准化构建词库过程如下:获取标准的行政区划名称规范、行业规范和组织形式规范,并将行政区划名称规范、行业规范和组织形式规范分别送入行政区划名称词库、行业词库和组织形式词库;内生法构建词库如下:批量获取多个银行对公客户户名;分别将每个银行对公客户户名划分为字长为L1、L2、
…
、Li、
…
、Ln的词,得到n个字库,其中,第i个字库中存放字长为Li的词,其中,1<L1<L2<
…
<Ln;分别对每个字库进行分析,得到各个字库中的词频分布;按照预设置的筛选标准,筛选出第Ln个字库中的高频词,若词Str是第Ln个字库中高频词,则将词Str的不同字长的分词自第L1~Ln
‑
1个字库中移除,重复此步骤,直至完成第Ln、
…
、L2、L1个字库的高频词筛选;以人工复核的形式对各个字库的高频词进行审核,并将字库中的词分别送入行政区划名称词库、行业词库、字号词库和组织形式词库。3.根据权利要求2所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,内生法构建词库过程中还包括数据标准化处理,具体为:识别银行对公客户户名中的与中文不等长度的非中文字符,所述非中文字符包括英文、数字和特殊符号,使用替换、删除、转义、标注方式对银行对公客户户名进行标准化处理;校验处理后的结果,若处理结果可被lag整除,则校验通过,否则,再次识别银行对公客户户名中的非中文字符并进行标准化处理,其中,lag为中文字符的长度;将处理结果按照lag拆分为字长为lag的词,使用预设置的特殊字符词库对词进行匹配,并人工观测出现频率低于阈值的词,记录与中文等长度的非中文字符,更新特殊字符词库,并使用替换、删除、转义、标注方式对与中文等长度的非中文字符进行处理。4.根据权利要求1所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,对银行对公客户户名进行词分包括以下步骤:获取待辨识的银行对公客户户名,判断银行对公客户户名为单层户名或多层户名,若是单层户名,则直接对其进行词分,若是多层户名,则将其划分为多个顺序相连的单层户名
后,再分别进行词分;词分过程如下:使用组织形式词库或行政区划名称词库对户名进行匹配,确定银行对公客户户名的组织形式组件或行政区划名称组件;在银行对公客户户名中定位组织形式组件或行政区划名称组件,使用行政区划名称词库或组织形式词库对户名的剩余部分进行匹配,确定银行对公客户户名的行政区划名称组件或组织形式组件;在银行对公客户户名中定位组织形式组件和行政区划名称组件,使用行业词库对户名的剩余部分进行匹配,确定银行对公客户户名的行业组件;在银行对公客户户名中定位组织形式组件、行政区划名称组件和行业组件,将户名的剩余部分作为户名的字号组件。5.根据权利要求4所述的一种基于NLP词分技术的银行对公客户户名预警方法,其特征在于,判断...
【专利技术属性】
技术研发人员:邹思维,刘杨,吴轶臻,丁璐,赵静,朱维然,季与翔,
申请(专利权)人:交通银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。