一种包含特定校验的命名实体识别发证机关方法及系统技术方案

技术编号:37276862 阅读:10 留言:0更新日期:2023-04-20 23:44
本发明专利技术涉及一种包含特定校验的命名实体识别发证机关方法及系统,使用国家标准化行政区划、命名实体历史出现频率和发证日期结合校验发证机关信息,可以自动产生标注语料,不受分词效果的影响,能精准识别发证机关中的省、市、区、县等行政区划,并结合词频、发证日期以及国家公布的标准行政区划进行校验,与现有技术相比,具有更好的兼容性、准确性和及时性,而且可以弥补现有发证机关校验方法的不足,提升用户身份识别可靠性。用户身份识别可靠性。用户身份识别可靠性。

【技术实现步骤摘要】
一种包含特定校验的命名实体识别发证机关方法及系统


[0001]本专利技术涉及金融信息处理
,尤其涉及一种包含特定校验的命名实体识别发证机关方法及系统。

技术介绍

[0002]客户身份识别是反洗钱核心义务之一,而发证机关作为客户身份信息的关键要素之一,验证发证机关的有效性对于识别客户身份具有重要意义。现有研究中针对识别客户身份过程中验证发证机关的问题多有涉及,例如“不可核查证件存在的洗钱风险分析”(鹿伟.青年时代.2015.)、“反洗钱实践中客户身份识别问题及对策”(魏景茹.银行家.2021,03,05.)等研究指出金融机构核对客户身份信息的手段单一,仅可通过公民身份信息联网核查系统核对自然人客户身份证件号码,缺乏针对发证机关、居住地址等身份信息的校验手段;“反洗钱监管视角下对客户身份识别制度的思考”(丁玉萍,李丹萍.甘肃金融.2019,05,15.)提出非柜面交易给客户身份识别带来了一定的查证困难,对于客户的发证机关、居住地址等证件信息有误的情况,缺乏有效的核实途径。
[0003]在发证机关准确性验证方面,因缺乏与客户有效沟通的途径,现有技术下各反洗钱义务机构主要通过将发证机关与国家公布的标准行政区划进行比较,以核实有效性,但现有方法存在以下几点不足:
[0004]1)发证机关普遍存在构成复杂、区域来源广泛等问题,例如“北京市首都机场公安局”、“青岛市公安局经济技术开发区分局”,与行政区划无对应关系,现有技术无法准确识别。
[0005]2)组成发证机关的少数民族自治县名称不统一,例如现有的发证机关既有“积石山保安族东乡族撒拉族自治县公安局”也有“积石山保安东乡撒拉自治县公安局”,都是客观真实存在的,如按照标准行政区划,则会出现部分真实发证机关无法正确识别问题。
[0006]3)错误的发证机关名称中包含正确的行政区划,例如错误的发证机关“士大连市公安局”名称中包含“大连市”,如按现有行政区划判断,则有可能被误认为正确的发证机关。
[0007]4)国家的行政区划存在增、撤、并、改的情况,需要不断投入人力成本来收集更新行政区划列表,受时效制约,难以准确识别,例如“苍山县”于2014年更名为“兰陵市”、“开封市金明区”于2014年被撤销等,现有技术均无法正确处理。
[0008]另一方面,中文命名实体识别是一种旨在识别出文本中特定实体的技术,例如“面向中文医疗文本的命名实体识别研究”(王礼敏.苏州大学.2019.)和“面向招标物料的命名实体识别研究及应用”(米健霞.计算机工程与应用.2021,11,16.)等研究中分别使用命名实体识别技术抽取法律文书和招标物料的特定文本并进行对应识别。
[0009]命名实体识别常用来识别人名、地名和机构名等专有名词实体。但是,中文命名实体识别技术较之英语更加复杂困难,因为中文文本中没有表示词语边界的分隔符号,命名实体的识别效果很大程度受自动分词效果的影响,除此之外,命名实体识别需要大规模的
标注语料,需要耗费大量人力来获取标注语料,在实际应用过程中往往存在效率较低、准确性不足的问题。

技术实现思路

[0010]为解决现有技术的不足,本专利技术提出一种包含特定校验的命名实体识别发证机关方法及系统,可以自动产生标注语料,不受分词效果的影响,能精准识别发证机关中的省、市、区、县等行政区划,并结合词频、发证日期以及国家公布的标准行政区划进行校验,与现有技术相比,具有更好的兼容性、准确性和及时性,而且可以弥补现有发证机关校验方法的不足,提升用户身份识别可靠性。
[0011]为实现以上目的,本专利技术所采用的技术方案包括:
[0012]一种包含特定校验的命名实体识别发证机关方法,其特征在于,包括:
[0013]S1、构建并训练获得基于命名实体识别的实体识别模型;
[0014]S2、获取用户输入的发证机关信息;
[0015]S3、使用实体识别模型从发证机关信息中提取获得若干相互独立的待判定实体;
[0016]S4、将未标记的待判定实体与国家标准行政区划进行比对判断,当判断待判定实体符合国家标准行政区划时,将对应待判定实体标记为正确实体;
[0017]S5、当判断待判定实体不符合国家标准行政区划时,进一步判断待判定实体在实体识别处理过程中各年度的历史出现频率是否大于预设阈值,当判断待判定实体在各年度的历史出现频率均大于阈值时,将对应待判定实体标记为正确实体;
[0018]S6、当判断待判定实体在部分年度的历史出现频率大于阈值,且其他年度的历史出现频率均小于阈值时,进一步判断待判定实体对应的发证日期是否处于历史出现频率大于阈值的年度范围内,当判断待判定实体对应的发证日期处于历史出现频率大于阈值的年度范围内时,将对应待判定实体标记为正确实体;
[0019]S7、当判断待判定实体对应的发证日期不处于历史出现频率大于阈值的年度范围内,或,判断待判定实体在各年度的历史出现频率均小于阈值时,将对应待判定实体标记为错误实体;
[0020]S8、分别对各待判定实体执行步骤S4至S7直至所有待判定实体均被标记;
[0021]S9、将所有待判定实体均被标记为正确实体的发证机关信息识别为正确发证机关,将存在待判定实体被标记为错误实体的发证机关信息识别为错误发证机关。
[0022]进一步地,所述步骤S1包括分步骤:
[0023]S11、使用国家标准行政区划生成带有实体标签的训练数据,所述实体标签包括省份实体起始、省份实体非起始、城市实体起始、城市实体非起始、区县实体起始、区县实体非起始和非实体;
[0024]S12、使用训练数据训练获得实体识别模型。
[0025]进一步地,所述实体识别模型使用长短期记忆网络、循环神经网络和BERT中的任意一种与线性链条件随机场和隐马尔科夫模型中的任意一种组合构建。
[0026]进一步地,所述方法还包括:
[0027]使用标记为正确实体但经验证修正为错误实体的待判定实体集合建立假阳性知识库;
[0028]使用标记为错误实体但经验证修正为正确实体的待判定实体集合建立假阴性知识库。
[0029]进一步地,所述步骤S3还包括:
[0030]使用假阳性知识库匹配待判定实体,并将匹配假阳性知识库的待判定实体标记为正确实体;
[0031]使用假阴性知识库匹配待判定实体,并将匹配假阴性知识库的待判定实体标记为错误实体。
[0032]进一步地,所述步骤S8还包括:
[0033]使用假阳性知识库匹配标记为错误实体的待判定实体,并将匹配假阳性知识库的待判定实体标记为正确实体;
[0034]使用假阴性知识库匹配标记为正确实体的待判定实体,并将匹配假阴性知识库的待判定实体标记为错误实体。
[0035]本专利技术还涉及一种包含特定校验的命名实体识别发证机关系统,其特征在于,包括:
[0036]模型管理模块,用于构建并训练获得基于命名实体识别的实体识别模型;
[0037]实体提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种包含特定校验的命名实体识别发证机关方法,其特征在于,包括:S1、构建并训练获得基于命名实体识别的实体识别模型;S2、获取用户输入的发证机关信息;S3、使用实体识别模型从发证机关信息中提取获得若干相互独立的待判定实体;S4、将未标记的待判定实体与国家标准行政区划进行比对判断,当判断待判定实体符合国家标准行政区划时,将对应待判定实体标记为正确实体;S5、当判断待判定实体不符合国家标准行政区划时,进一步判断待判定实体在实体识别处理过程中各年度的历史出现频率是否大于预设阈值,当判断待判定实体在各年度的历史出现频率均大于阈值时,将对应待判定实体标记为正确实体;S6、当判断待判定实体在部分年度的历史出现频率大于阈值,且其他年度的历史出现频率均小于阈值时,进一步判断待判定实体对应的发证日期是否处于历史出现频率大于阈值的年度范围内,当判断待判定实体对应的发证日期处于历史出现频率大于阈值的年度范围内时,将对应待判定实体标记为正确实体;S7、当判断待判定实体对应的发证日期不处于历史出现频率大于阈值的年度范围内,或,判断待判定实体在各年度的历史出现频率均小于阈值时,将对应待判定实体标记为错误实体;S8、分别对各待判定实体执行步骤S4至S7直至所有待判定实体均被标记;S9、将所有待判定实体均被标记为正确实体的发证机关信息识别为正确发证机关,将存在待判定实体被标记为错误实体的发证机关信息识别为错误发证机关。2.如权利要求1所述的方法,其特征在于,所述步骤S1包括分步骤:S11、使用国家标准行政区划生成带有实体标签的训练数据,所述实体标签包括省份实体起始、省份实体非起始、城市实体起始、城市实体非起始、区县实体起始、区县实体非起始和非实体;S12、使用训练数据训练获得实体识别模型。3.如权利要求2所述的方法,其特征在于,所述实体识别模型使用长短期记忆网络、循环神经网络和BERT中的任意一种与线性链条件随机场和隐马尔科夫模型中的任意一种组合构建。4.如权...

【专利技术属性】
技术研发人员:何晓明王斌方伟
申请(专利权)人:中信银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1