一种文本审核方法、装置及系统制造方法及图纸

技术编号：22532067 阅读：14 留言：0更新日期：2019-11-13 09:18

本申请公开了一种文本审核方法、装置及系统，用于实现更为准确的文本审核。该方法：根据敏感词表确定文本的第一分数；根据审核模型确定文本第二分数；根据第一分数、第二分数确定文本在第k个违禁类别上的评分，判断文本是否包含违禁内容。该系统：审核模块，根据第一模型和第一敏感词表对文本审核，输出审核结果；模型训练模块，根据历史数据训练第二模型并评估第二模型的性能；若第二模型的性能高于第一模型，将第二模型发给审核模块；敏感词评估模块，获取第二敏感词表，用第二模型对第二敏感词表评估，根据评估结果调整第二敏感词，将调整后的第二敏感词表发给审核模块；审核模块将第二模型替换第一模型，根据第二敏感词表更新第一敏感词表。

A text review method, device and system

The application discloses a text review method, device and system for realizing more accurate text review. This method: the first score of the text is determined according to the sensitive vocabulary; the second score of the text is determined according to the audit model; the score of the text on the K prohibited categories is determined according to the first score and the second score to determine whether the text contains prohibited content. This system: the audit module, according to the first model and the first sensitive thesaurus, check the text and output the audit results; the model training module trains the second model according to historical data and evaluates the performance of the second model; if the second model performs better than the first model, the second model is distributed to the audit module; the sensitive word evaluation module obtains second sensitive words lists, and the second model is used for the first part. Two sensitive word list assessment, adjusted second sensitive words according to the evaluation results, and sent the adjusted second sensitive thesaurus to the audit module; the audit module replaced the first model with the second model, and updated the first sensitive word list according to the second sensitive vocabulary.

全部详细技术资料下载

【技术实现步骤摘要】
一种文本审核方法、装置及系统
本申请涉及文本信息处理
，尤其涉及一种文本审核方法、装置及系统。
技术介绍
随着互联网的高速发展，用户可以更加自由地发布原创内容，用户生成内容(UserGeneratedContent，UGC)的数量急剧增长。尤其是在文本领域，用户可以随意发布自己的观点、评论等。然而，部分用户的原创内容存在涉黄、涉恐、涉政或者广告等不适合公开发布的违禁内容，这些内容的发布将会影响内容平台其他用户的使用体验，甚至对社会产生一定的危害性。目前，许多网站为识别违禁内容，采用关键词过滤等策略加人工审核的方式，以避免违禁内容的发布。然而，受限于过滤策略以及人工处理速度，在面对内容越来越丰富、数量越来越庞大的互联网用户生成文本内容时，上述方式很难满足对大量新型复杂文本的审核需求。
技术实现思路
本申请实施例提供一种文本审核方法、装置及系统，用以实现对文本内容进行审核，判断是否包含有违禁内容。第一方面，本申请实施例提供的一种文本审核方法，包括：获取待审核文本；根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词，根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数，k＝1，2，...，N，其中，N表示违禁类别的数量；根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数；根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分；根据所述评分确定所述待审核文本是否包含违禁内容。在上述实施例中，采用了通过深度学习得到的语言模型结合敏感词表的审核方式，有效保证了文本审核的准确...

【技术保护点】
1.一种文本审核方法，其特征在于，包括：获取待审核文本；根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词，根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数，k＝1，2，...，N，其中，N表示违禁类别的数量；根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数；根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分；根据所述评分确定所述待审核文本是否包含违禁内容。

【技术特征摘要】
1.一种文本审核方法，其特征在于，包括：获取待审核文本；根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词，根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数，k＝1，2，...，N，其中，N表示违禁类别的数量；根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数；根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分；根据所述评分确定所述待审核文本是否包含违禁内容。2.如权利要求1所述的方法，其特征在于，所述根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数，包括：根据下述公式确定所述第一分数scoresk：其中，m表示所述待审核文本中包含的第k个违禁类别的敏感词的数量，wjk表示所述待审核文本中包含的第j个敏感词在所述第k个违禁类别中的权重；所述第一分数scoresk越高表示所述待审核存在违禁内容的风险越高，反之，表示所述待审核文本存在违禁内容的风险越低。3.如权利要求1所述的方法，其特征在于，所述根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数，包括：根据下述公式确定所述第二分数scoreMk：scoreMk＝fM(x)其中，x表示待审核文本，fM(·)表示所述第k个违禁类别的审核模型；所述第二分数scoreMk越高表示所述待审核文本存在违禁内容的风险越高，反之，表示所述待审核文本存在违禁内容的风险越低。4.如权利要求1所述的方法，其特征在于，所述根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分，包括：根据下述公式确定所述待审核文本在所述第k个违禁类别上的评分scorek：scorek＝γkscoresk+(1-γk)scoreMk其中，γk表示评分scoresk的权重；所述评分scorek越高表示所述待审核文本存在违禁内容的风险越高，反之，表示所述待审核文本存在违禁内容的风险越低。5.如权利要求1所述的方法，其特征在于，所述根据所述评分确定所述待审核文本是否包含违禁内容，包括：若所述待审核文本在至少一个违禁类别上的评分大于或等于第一阈值，则确定所述待审核文本存在违禁内容。6.如权利要求5所述的方法，其特征在于，还包括：若所述待审核文本在至少一个违禁类别上的评分小于所述第一阈值，且大于第二阈值，则将所述待审核文本显示在人工审核窗口中，并接收人工审核结果，根据人工审核结果确定所述待审核文本是否存在违禁内容。7.一种文本审核方装置，其特征在于，包括：获取模块，用于获取待审核文本；评分模块，用于根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词，根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数，k＝1，2，...，N，其中，N表示违禁类别的数量；根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数；根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分；确定模块，用于根据所述评分确定所述待审核文本是否包含违禁内容。8.如权利要求7所述的装置，其特征在于，所述评分模块，具体用于：根据下述公式确定所述第一分数scoresk：其中，m表示所述待审核文本中包含的第k个违禁类别的敏感词的数量，wjk表示所述待审核文本中包含的第j个敏感词在所述第k个违禁类别中的权重；所述第一分数scoresk越高表示所述待审核存在违禁内容的风险越高，反之，表示所述待审核文本存在违禁内容的风险越低。9.如权利要求7所述的装置，其特征在于，所述评分模块，具体用于：根据下述公式确定所述第二分数scoreMk：scoreMk＝fM(x)其中，x表示待审核文本；fM(·)表示所述第k个违禁类别的审核模型；所述第二分数scoreMk越高表示所述待审核存在违禁内容的风险越高，反之，表示所述待审核文本存在违禁内容的风险越低。10.如权利要求7所述的装置，其特征在于，所述评分模块，具体用于：根据下述公式确定所述待审核文本在所述第k个违禁类别上的评分scorek：scorek＝γks...

【专利技术属性】
技术研发人员：杨溥，郭宏洲，徐唐，沈仁奎，邓鑫鑫，
申请(专利权)人：北京思维造物信息科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人