一种降低敏感词误警率的文本审核后处理装置及方法制造方法及图纸

技术编号:27535558 阅读:22 留言:0更新日期:2021-03-03 11:21
本发明专利技术公开了一种降低敏感词误警率的文本审核后处理装置及方法,所述装置包括:分词模块,用于对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;语法单元正确性审核模块,用于根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核;审核结果判断输出模块,用于根据语法单元正确性审核模块的审核结果进行过滤或报警处理。行过滤或报警处理。行过滤或报警处理。

【技术实现步骤摘要】
一种降低敏感词误警率的文本审核后处理装置及方法


[0001]本专利技术涉及文本审核
,特别是涉及一种降低敏感词误警率的文本审核后处理装置及方法。

技术介绍

[0002]随着计算机技术、网络技术的快速发展,诸多网络社交平台如微博、聊天论坛、视频弹幕等应运而生,这些网络平台持续产生海量的用户交互数据如文本数据、视频数据在丰富人们精神生活的同时,也给有效的信息审核和监管带来了困难。
[0003]典型的传统文本审核方法通常是基于敏感词对文本进行审核,这些基于敏感词的文本审核方法通常有以下几种类型:1)直接根据敏感词库对文本进行基于关键词的检索匹配审核;2)或者是先将敏感词映射为语义向量(如Word2Vec静态语义向量)后再与同样经过向量化的待审核文本中的词依次进行向量相似度计算,并在与预设阈值进行比较后决定报警与否,从而实现对敏感同义词进行审核的目的。
[0004]然而,以上从多种角度出发的传统审核方法虽然能够获得较高的召回率,但是也不可避免地造成了一定的误报,从而使文本审核系统的可用性降低,具体体现在:
[0005]一、基于敏感词直接检索匹配的方法的不足之处在于:
[0006](a)该方法不具备分析语法单元的能力,可能存在不符合语法单元正确性时的误报警,如“黑夜总会过去”中对敏感词“夜总会”的误匹配;
[0007](b)该方法不具备上下文分析能力,可能存在敏感词多义性时的误报警,如“计算机三级证书”中对敏感多义词“三级”的误报警;
[0008]二、基于语义向量进行匹配的方法(如Word2Vec静态语义向量)的不足之处在于:该方法可能因未考虑上下文信息导致对多义词的误匹配,如“树叶是黄色的”中的“黄色”对敏感词“色情”的同义词误匹配,等等。
[0009]因此,实有必要提出一种技术手段,以解决上述基于敏感词的文本审核方法的不足,提高文本审核系统的可用性,有效降低敏感词误警率。

技术实现思路

[0010]为克服上述现有技术存在的不足,本专利技术之目的在于提供一种降低敏感词误警率的文本审核后处理装置及方法,以实现对基于敏感词直接匹配、基于敏感同义词匹配的多种不同角度的传统审核方法进一步审核过滤的目的,以达到降低误警率、提升文本审核系统可用性的效果。
[0011]为达上述及其它目的,本专利技术提出一种降低敏感词误警率的文本审核后处理装置,包括:
[0012]分词模块,用于对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;
[0013]语法单元正确性审核模块,用于根据敏感词在待审核文本中的索引位置以及获得
的分词单元位置索引列表,对敏感词进行语法单元正确性审核;
[0014]审核结果判断输出模块,用于根据语法单元正确性审核模块的审核结果进行过滤或报警处理。
[0015]优选地,所述装置还包括:
[0016]敏感多义词查询模块,用于对所述语法单元正确性审核模块审核得到的符合语法单元正确性的敏感词,利用预先建立的敏感多义消歧词库判断其是否为多义词,由所述审核结果判断输出模块根据所述敏感多义词查询模块的判断结果进行报警或过滤处理。
[0017]优选地,所述装置还包括:
[0018]局部上下文获取模块,用于在所述敏感多义词查询模块判断该敏感词为多义词时,基于所述待审核文本中标记为多义词的敏感词,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文;
[0019]特定词语单元替换模块,用于对经过局部上下文定位处理后的原始局部上下文,将文本中标记为多义词的敏感词替换为所述敏感多义消歧词库中对应的敏感多义消歧词,得到替换后的局部上下文;
[0020]语义一致性审核模块,用于将经过所述局部上下文获取模块局部上下文处理输出的原始局部上下文以及经所述特定词语单元替换模块得到的替换后的局部上下文同时输入已训练好的语义一致性模型进行审核,输出审核结果至所述审核结果判断输出模块,由所述审核结果判断输出模块根据所语义一致性审核模块的审核结果进行报警或过滤处理。
[0021]优选地,所述局部上下文获取模块基于所述待审核文本,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文。
[0022]优选地,所述装置还包括:
[0023]敏感词审核结果输入模块,用于输入对待审核文本的初步敏感词审核结果以及匹配类型,若其匹配类型为敏感词原型匹配,进入所述分词模块,若匹配类型为敏感同义词匹配,则进入所述局部上下文获取模块。
[0024]优选地,所述局部上下文获取模块对于确定为敏感同义词匹配的待审核文本,基于该待审核文本,分别定位该敏感同义词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感同义词的原始局部上下文;所述特定词语单元替换模块对经过所述局部上下文获取模块局部上下文定位处理后的原始局部上下文文本,将文本中的敏感同义词替换为敏感词库中的敏感词原型,则得到替换后的局部上下文文本。
[0025]优选地,所述装置还包括语义一致性模型训练模块,利用训练数据集对所述语义一致性模型进行训练,其训练步骤包括:
[0026]将包含敏感词的批量文本数据输入所述局部上下文获取模块后通过局部上下文处理后获得对应的原始局部上下文数据。
[0027]对经过局部上下文处理后的原始局部上下文,通过所述特定词语单元替换模块进行如下操作:
[0028](a)使用敏感词在当前上下文语境里的同义词进行替换,并与替换前数据配对后
获得标签为语义一致的文本数据;
[0029](b)如果敏感词为多义词,则使用敏感词不在当前上下文语境里的同义词进行替换;如果敏感词不是多义词,则使用不相关词进行替换,在替换操作完成后,与替换前数据配对后获得标签为语义不一致的文本数据;
[0030]将以上所有标注数据输入初始化后的语义一致性模型进行训练。
[0031]优选地,所述装置还包括:
[0032]敏感多义消歧词库构建模块,用于在敏感词库的基础上构建敏感多义消歧词库。
[0033]优选地,若所述语法单元正确性审核模块输出的审核结果为不符合语法单元正确性,则所述审核结果判断输出模块对敏感词审核结果过滤处理;若所述敏感多义词查询模块输出的审核结果认为敏感词不是多义词,则所述审核结果判断输出模块进行报警处理;若所述语义一致性审核模块输出的审核结果认为原始文本的局部上下文与替换后的局部上下文的语义不一致,则所述审核结果判断输出模块对敏感词审核结果进行过滤处理,否则进行报警处理。
[0034]为达到上述目的,本专利技术还提供一种降低敏感词误警率的文本审核后处理方法,包括如下步骤:
[0035]步骤S1,对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;...

【技术保护点】

【技术特征摘要】
1.一种降低敏感词误警率的文本审核后处理装置,包括:分词模块,用于对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;语法单元正确性审核模块,用于根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核;审核结果判断输出模块,用于根据语法单元正确性审核模块的审核结果进行过滤或报警处理。2.如权利要求1所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括:敏感多义词查询模块,用于对所述语法单元正确性审核模块审核得到的符合语法单元正确性的敏感词,利用预先建立的敏感多义消歧词库判断其是否为多义词,由所述审核结果判断输出模块根据所述敏感多义词查询模块的判断结果进行报警或过滤处理。3.如权利要求2所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括:局部上下文获取模块,用于在所述敏感多义词查询模块判断该敏感词为多义词时,基于所述待审核文本中标记为多义词的敏感词,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文;特定词语单元替换模块,用于对经过局部上下文定位处理后的原始局部上下文,将文本中标记为多义词的敏感词替换为所述敏感多义消歧词库中对应的敏感多义消歧词,得到替换后的局部上下文;语义一致性审核模块,用于将经过所述局部上下文获取模块局部上下文处理输出的原始局部上下文以及经所述特定词语单元替换模块得到的替换后的局部上下文同时输入已训练好的语义一致性模型进行审核,输出审核结果至所述审核结果判断输出模块,由所述审核结果判断输出模块根据所语义一致性审核模块的审核结果进行报警或过滤处理。4.如权利要求3所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于:所述局部上下文获取模块基于所述待审核文本,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文。5.如权利要求4所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括:敏感词审核结果输入模块,用于输入对待审核文本的初步敏感词审核结果以及匹配类型,若其匹配类型为敏感词原型匹配,进入所述分词模块,若匹配类型为敏感同义词匹配,则进入所述局部上下文获取模块。6.如权利要求5所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于:所述...

【专利技术属性】
技术研发人员:王晓平
申请(专利权)人:上海极链网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1