一种文本审核的方法和装置制造方法及图纸

技术编号：36924453 阅读：15 留言：0更新日期：2023-03-22 18:48

本发明专利技术是一种文本审核的方法和装置，将敏感词在原有分类基础上继续划分为确信词和疑似词两大类，审核时先进行敏感词匹配，如果匹配到确信词，则直接判定为违规，如果匹配到疑似词，则通过神经网络继续判定其分类，如果网络输出分类与疑似词所在分类一致，则判定为违规，否则判定为正常。该方法通过结合敏感词匹配方法和神经网络审核方法来减少漏判或误判的情况，同时因为不是所有文本都需要经过神经网络，所以相较纯神经网络的方法能够提高系统审核效率。本发明专利技术的优点：相较现有技术单纯依赖敏感词匹配或者单纯采用神经网络的方法能够提高准确率，减少漏判或误判的情况；有的文本无需经过神经网络模型，在一定程度上提高了系统整体的审核效率。系统整体的审核效率。系统整体的审核效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本审核的方法和装置

[0001]本专利技术涉及的是一种文本审核的方法和装置，涉及计算机多媒体信息处理

技术介绍

[0002]在文本信息审核
中，现有技术的方案一般是通过敏感词匹配或者神经网络的方法。其中通过敏感词匹配是指原文中出现某个敏感词就判定为违规，这种方法非常高效。通过神经网络的方法是指将原文先进行预处理，如分词、向量化等，再输入到训练好的神经网络中，最终网络会输出是否违规或者某个分类的标签。
[0003]单独依赖敏感词匹配的方法虽然高效，但是存在误判或者漏判的情况，比如某词在涉黄上下文中通常是个违规词，但是正常语境中也会用到，这种词如果作为敏感词就有可能导致误判，如果不作为敏感词就有可能导致漏判。
[0004]如果采用神经网络的方法，网络通常会通过上下文语义而不是某个词去判定是否违规，准确性相较敏感词的方法会高一点，但是也有可能会误判或漏判，比如在长段正常文本中插入几个违规的词，这种情况神经网络大概率会判为正常文本，而且因为神经网络通常计算量比较大，同等硬件条件下审核效率较低。
[0005]CN112434522A公开了一种降低敏感词误警率的文本审核后处理装置及方法，需要设置敏感多义消歧词库，同样存在可能漏判的问题。

技术实现思路

[0006]本专利技术提出的是一种文本审核的方法和装置，其目的旨在克服现有技术存在的上述不足，结合敏感词匹配方法和神经网络审核方法来减少漏判或误判的情况，并提高系统审核效率。
[0007]本专利技术的技术解决方案...

【技术保护点】

【技术特征摘要】
1.一种文本审核装置，其特征在于，包括决策模块、敏感词匹配模块和神经网络模块，决策模块分别与敏感词匹配模块和神经网络模块双向信号连接，决策模块用于对文本审核的流程进行管理，决定文本审核任务需要流经敏感词匹配模块或神经网络模块，并最终输出审核结果，敏感词匹配模块用于匹配识别文本中出现的敏感词，神经网络模块用于对文本进行分类，并输出文本分类标签。2.如权利要求1所述的一种文本审核装置，其特征在于，所述的神经网络模块为fasttext神经网络模型。3.如权利要求2所述的一种文本审核装置的文本审核方法，其特征在于，将敏感词划分为确信词和疑似词，如果出现确信词则直接判定为违规，否则由神经网络模型分类结果判断是否违规。4.如权利要求3所述的一...

【专利技术属性】
技术研发人员：苏许臣，黄建杰，
申请(专利权)人：央视国际网络无锡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人