用于银行转账附言数据审核的不良信息识别方法及系统技术方案

技术编号:37268370 阅读:12 留言:0更新日期:2023-04-20 23:38
本发明专利技术公开了一种用于银行转账附言数据审核的不良信息识别方法及系统,包括:获取银行转账附言数据中的目标待识别文本;将目标待识别文本输入至包含语义识别模型、用于不良信息意图识别的文本分类模型和敏感词匹配模型的不良信息意图识别模块,得到目标待识别文本存在不良信息意图的第一得分值,并将目标待识别文本输入至包含联系方式特征规则打分模型和联系方式识别模型的广告意图识别模块,得到目标识别文本存在广告意图的第二得分值;当第一得分值大于第一阈值且第二得分值大于第二阈值时,确定目标待识别文本为不良信息文本。本发明专利技术能够有效检测银行转账附言数据中的不良信息内容,提高了不良信息的识别准确率。提高了不良信息的识别准确率。提高了不良信息的识别准确率。

【技术实现步骤摘要】
用于银行转账附言数据审核的不良信息识别方法及系统


[0001]本专利技术涉及文本识别
,尤其涉及一种用于银行转账附言数据审核的不良信息识别方法及系统。

技术介绍

[0002]随着互联网的快速发展,越来越多的银行操作被搬到互联网上进行。网上转账就是一类非常普遍的操作,因为转账涉及到人与人之间的交互,也给了不法分子一个传播有害信息的途径。例如通过转账1分钱,在转账附言填写并扩散违法不良信息,就是一类典型的问题。
[0003]这类问题数据量较大,且出现时机不固定,所以在进行内容审核时需要采用机器审核结合人工审核的方式进行。此场景下的不良信息,出于自身特点,兼具违规违法意图和传播意图。对于违规违法意图识别,在转账附言场景,多数为较短的句子,需要人进行脑补,给模型捕捉语义带来较大困难。另外不法分子多采用各种文字变体,如音近,形近,拆字,拼音,乱序,插入干扰等企图绕开审核,特别是对于联系方式,本身没有语义信息,变体形式更是变化多端。业界进行机器识别多采用模型的方式,但模型识别是后置行为,需要先发现,找到对应的大量样本,训练模型后进而进行识别。如果利用人的先验知识和总结的规律提前进行布控,或快速布控并且能够保证较高的识别准确率,是一个比较困难的问题。
[0004]因此,亟需提供一种技术方案解决上述技术问题。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供了一种用于银行转账附言数据审核的不良信息识别方法及系统。
[0006]本专利技术的用于银行转账附言数据审核的不良信息识别方法的技术方案如下:
[0007]获取银行转账附言数据中的目标待识别文本;
[0008]将所述目标待识别文本输入至包含语义识别模型、用于不良信息意图识别的文本分类模型和敏感词匹配模型的不良信息意图识别模块,得到所述目标待识别文本存在不良信息意图的第一得分值,并将所述目标待识别文本输入至包含联系方式特征规则打分模型和联系方式识别模型的广告意图识别模块,得到所述目标识别文本存在广告意图的第二得分值;
[0009]当所述第一得分值大于第一阈值且所述第二得分值大于第二阈值时,确定所述目标待识别文本为不良信息文本。
[0010]本专利技术的用于银行转账附言数据审核的不良信息识别方法的有益效果如下:
[0011]本专利技术的方法能够有效检测银行转账附言数据中的不良信息内容,提高了不良信息的识别准确率。
[0012]在上述方案的基础上,本专利技术的用于银行转账附言数据审核的不良信息识别方法还可以做如下改进。
[0013]进一步,所述获取银行转账附言数据中的目标待识别文本的步骤,包括:
[0014]获取银行转账附言数据中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
[0015]进一步,所述将所述目标待识别文本输入至包含语义识别模型、用于不良信息意图识别的文本分类模型和敏感词匹配模型的不良信息意图识别模块,得到所述目标待识别文本存在不良信息意图的第一得分值的步骤,包括:
[0016]将所述目标待识别文本输入所述语义识别模型,判断所述目标待识别文本中是否包含语义信息且所述目标待识别文本的置信度是否大于置信度阈值,得到第一判断结果;
[0017]当所述第一判断结果为是时,将所述目标待识别文本输入至所述文本分类模型,得到并根据所述目标待识别文本的文本分类结果,确定所述目标待识别文本的第一得分值;
[0018]当所述第一判断结果为否时,将所述目标待识别文本输入至所述敏感词匹配模型进行敏感词匹配和变体映射处理,得到并根据所述目标待识别文本的敏感词匹配结果,确定所述目标待识别文本的第一得分值。
[0019]进一步,所述将所述目标待识别文本输入至包含联系方式特征规则打分模型和联系方式识别模型的广告意图识别模块,得到所述目标识别文本存在广告意图的第二得分值的步骤,包括:
[0020]将所述目标待识别文本输入至所述联系方式识别模型,得到所述目标待识别文本的第一广告意图得分值;
[0021]将所述目标待识别文本输入至所述联系方式特征规则打分模型,得到并根据所述目标待识别文本的至少一个联系方式关键词特征和至少一个联系方式串特征,得到所述目标待识别文本的第二广告意图得分值;
[0022]判断所述第一广告意图得分值是否大于所述第二广告意图得分值,得到第二判断结果;
[0023]当所述第二判断结果为是时,将所述第一广告意图得分值确定为所述目标识别文本的第二得分值;
[0024]当所述第二判断结果为否时,将所述第二广告意图得分值确定为所述目标识别文本的第二得分值。
[0025]进一步,获取所述目标待识别文本的至少一个联系方式关键词特征和至少一个联系方式串特征的步骤,包括:
[0026]提取所述目标待识别文本的所有的合法串特征和所有的合法关键字特征,并将特殊关键字对应的串特征和关键字特征进行剔除,得到并将所述目标待识别文本的多个第一串特征进行合并,得到所述目标待识别文本的至少一个联系方式串特征和至少一个联系方式关键词特征。
[0027]进一步,所述根据所述目标待识别文本的至少一个联系方式关键词特征和至少一个联系方式串特征,得到所述目标待识别文本的第二广告意图得分值的步骤,包括:
[0028]基于所述目标待识别文本中的每个联系方式关键词特征对应的关键字等级、关键字长度和关键字变体特征,每个联系方式串特征对应的串长度和串变体特征以及每个关键字与串之间的距离值,确定所述目标待识别文本的第二广告意图得分值。
[0029]进一步,所述语义识别模型为:预训练的基于n

gram算法的语言模型,所述文本分类模型为:预训练的基于transformer的文本分类模型,所述联系方式识别模型为:预训练的基于transformer的目标识别模型。
[0030]本专利技术的用于银行转账附言数据审核的不良信息识别系统的技术方案如下:
[0031]包括:获取模块、处理模块和识别模块;
[0032]所述获取模块用于:获取银行转账附言数据中的目标待识别文本;
[0033]所述处理模块用于:将所述目标待识别文本输入至包含语义识别模型、用于不良信息意图识别的文本分类模型和敏感词匹配模型的不良信息意图识别模块,得到所述目标待识别文本存在不良信息意图的第一得分值,并将所述目标待识别文本输入至包含联系方式特征规则打分模型和联系方式识别模型的广告意图识别模块,得到所述目标识别文本存在广告意图的第二得分值;
[0034]所述识别模块用于:当所述第一得分值大于第一阈值且所述第二得分值大于第二阈值时,确定所述目标待识别文本为不良信息文本。
[0035]本专利技术的一用于银行转账附言数据审核的不良信息识别系统的有益效果如下:
[0036]本专利技术的系统能够有效检测银行转账附言数据中的不良信息内容,提高了不良信息的识别准确率。
[0037]在上述方案的基础上,本专利技术的用于银行转本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于银行转账附言数据审核的不良信息识别方法,其特征在于,包括:获取银行转账附言数据中的目标待识别文本;将所述目标待识别文本输入至包含语义识别模型、用于不良信息意图识别的文本分类模型和敏感词匹配模型的不良信息意图识别模块,得到所述目标待识别文本存在不良信息意图的第一得分值,并将所述目标待识别文本输入至包含联系方式特征规则打分模型和联系方式识别模型的广告意图识别模块,得到所述目标识别文本存在广告意图的第二得分值;当所述第一得分值大于第一阈值且所述第二得分值大于第二阈值时,确定所述目标待识别文本为不良信息文本。2.根据权利要求1所述的用于银行转账附言数据审核的不良信息识别方法,其特征在于,所述获取银行转账附言数据中的目标待识别文本的步骤,包括:获取银行转账附言数据中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。3.根据权利要求1所述的用于银行转账附言数据审核的不良信息识别方法,其特征在于,所述将所述目标待识别文本输入至包含语义识别模型、用于不良信息意图识别的文本分类模型和敏感词匹配模型的不良信息意图识别模块,得到所述目标待识别文本存在不良信息意图的第一得分值的步骤,包括:将所述目标待识别文本输入所述语义识别模型,判断所述目标待识别文本中是否包含语义信息且所述目标待识别文本的置信度是否大于置信度阈值,得到第一判断结果;当所述第一判断结果为是时,将所述目标待识别文本输入至所述文本分类模型,得到并根据所述目标待识别文本的文本分类结果,确定所述目标待识别文本的第一得分值;当所述第一判断结果为否时,将所述目标待识别文本输入至所述敏感词匹配模型进行敏感词匹配和变体映射处理,得到并根据所述目标待识别文本的敏感词匹配结果,确定所述目标待识别文本的第一得分值。4.根据权利要求1所述的用于银行转账附言数据审核的不良信息识别方法,其特征在于,所述将所述目标待识别文本输入至包含联系方式特征规则打分模型和联系方式识别模型的广告意图识别模块,得到所述目标识别文本存在广告意图的第二得分值的步骤,包括:将所述目标待识别文本输入至所述联系方式识别模型,得到所述目标待识别文本的第一广告意图得分值;将所述目标待识别文本输入至所述联系方式特征规则打分模型,得到并根据所述目标待识别文本的至少一个联系方式关键词特征和至少一个联系方式串特征,得到所述目标待识别文本的第二广告意图得分值;判断所述第一广告意图得分值是否大于所述第二广告意图得分值,得到第二判断结果;当所述第二判断结果为是时,将所述第一广告意图得分值确定为所述目标识别文本的第二得分值;当所述第二判断结果为否时,将所述第二广告意图得分值确定为所述目标识别文本的第二得分值。5.根据权利要求4所述的用于银行转账附言数据审核的不良信息识别方法,其特征在
于,获取所述目标待识别文本的至少一个联系方式关键词特征和至少一个联系方式串特征的步...

【专利技术属性】
技术研发人员:徐小锋齐路朱旻昊姜欣荣
申请(专利权)人:北京数美时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1