用于银行征信数据审核的拼音变体文本识别方法及系统技术方案

技术编号:37320388 阅读:13 留言:0更新日期:2023-04-21 23:00
本发明专利技术公开了一种用于银行征信数据审核的拼音变体文本识别方法及系统,包括:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到目标待识别文本的转换拼音字符串;拼音置信度模型用于:当任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对拼音变体进行转换;基于文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到拼接拼音字符串;当拼接拼音字符串中包含敏感词拼音串时,确定目标待识别文本为违规文本。本发明专利技术能够有效检测出拼音变体,提升拼音变体文本识别准确率,并有效地提升银行征信数据审核的效率。行征信数据审核的效率。行征信数据审核的效率。

【技术实现步骤摘要】
用于银行征信数据审核的拼音变体文本识别方法及系统


[0001]本专利技术涉及文本识别
,尤其涉及一种用于银行征信数据审核的拼音变体文本识别方法及系统。

技术介绍

[0002]目前,在用户提交的征信数据中一部分需要用户进行填写,包括家庭住址,单位信息等。部分用户没有贷款意图,但会通过这部分内容表达对银行的不满,以及个人情绪的发泄。这部分违规数据需要在数据审核阶段检出并将其剔除,若数据存在审核不严露出的情况,银行会收到央行严重处罚,严重的会被取消调取征信的权利,使贷款业务受到影响。
[0003]通常为了提升效率,会使用机器审核结合人工审核的方式。常规的违规信息检测可以通过敏感词匹配以及语义模型识别实现,对于违规内容中的变体内容识文本识别的难点,特别是拼音变体,一方面要跟汉字产生关联,一方面要区分英语以及英文字母的干扰,正确识别相对较困难。
[0004]因此,亟需提供一种技术方案解决上述技术问题。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供了一种用于银行征信数据审核的拼音变体文本识别方法及系统。
[0006]本专利技术的用于银行征信数据审核的拼音变体文本识别方法的技术方案如下:
[0007]基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;
[0008]当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;
[0009]获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
[0010]本专利技术的用于银行征信数据审核的拼音变体文本识别方法的有益效果如下:
[0011]本专利技术的方法能够有效检测出拼音变体,提升了拼音变体文本识别的准确率,并有效地提升了银行征信数据审核的效率。
[0012]在上述方案的基础上,本专利技术的用于银行征信数据审核的拼音变体文本识别方法还可以做如下改进。
[0013]进一步,还包括:
[0014]获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
[0015]进一步,还包括:
[0016]基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;
[0017]当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
[0018]进一步,所述基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取的步骤,包括:
[0019]基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果;
[0020]当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。
[0021]进一步,所述拼音置信度模型为预训练的n

gram模型。
[0022]进一步,所述NER模型为:预训练的基于transformer的深度学习模型。
[0023]本专利技术的用于银行征信数据审核的拼音变体文本识别系统的技术方案如下:
[0024]包括:转换模块、处理模块和识别模块;
[0025]所述转换模块用于:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;
[0026]所述处理模块用于:当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;
[0027]所述识别模块用于:获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
[0028]本专利技术的用于银行征信数据审核的拼音变体文本识别系统的有益效果如下:
[0029]本专利技术的系统能够有效检测出拼音变体,提升了拼音变体文本识别的准确率,并有效地提升了银行征信数据审核的效率。
[0030]在上述方案的基础上,本专利技术的用于银行征信数据审核的拼音变体文本识别系统还可以做如下改进。
[0031]进一步,还包括:预处理模块;
[0032]所述预处理模块用于:获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
[0033]进一步,还包括:提取模块;所述提取模块用于:
[0034]基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;
[0035]当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
[0036]进一步,所述提取模块具体用于:
[0037]基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于银行征信数据审核的拼音变体文本识别方法,其特征在于,包括:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。2.根据权利要求1所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,还包括:获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。3.根据权利要求1所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,还包括:基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。4.根据权利要求3所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,所述基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取的步骤,包括:基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果;当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。5.根据权利要求1所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,所述拼音置信度模型为预训练的n

gram模型。6.根据权利要求3或4所述的用于银行征信数据审核...

【专利技术属性】
技术研发人员:徐小锋齐路朱旻昊姜欣荣
申请(专利权)人:北京数美时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1