The application discloses a text review method, device and system for realizing more accurate text review. This method: the first score of the text is determined according to the sensitive vocabulary; the second score of the text is determined according to the audit model; the score of the text on the K prohibited categories is determined according to the first score and the second score to determine whether the text contains prohibited content. This system: the audit module, according to the first model and the first sensitive thesaurus, check the text and output the audit results; the model training module trains the second model according to historical data and evaluates the performance of the second model; if the second model performs better than the first model, the second model is distributed to the audit module; the sensitive word evaluation module obtains second sensitive words lists, and the second model is used for the first part. Two sensitive word list assessment, adjusted second sensitive words according to the evaluation results, and sent the adjusted second sensitive thesaurus to the audit module; the audit module replaced the first model with the second model, and updated the first sensitive word list according to the second sensitive vocabulary.
【技术实现步骤摘要】
一种文本审核方法、装置及系统
本申请涉及文本信息处理
,尤其涉及一种文本审核方法、装置及系统。
技术介绍
随着互联网的高速发展,用户可以更加自由地发布原创内容,用户生成内容(UserGeneratedContent,UGC)的数量急剧增长。尤其是在文本领域,用户可以随意发布自己的观点、评论等。然而,部分用户的原创内容存在涉黄、涉恐、涉政或者广告等不适合公开发布的违禁内容,这些内容的发布将会影响内容平台其他用户的使用体验,甚至对社会产生一定的危害性。目前,许多网站为识别违禁内容,采用关键词过滤等策略加人工审核的方式,以避免违禁内容的发布。然而,受限于过滤策略以及人工处理速度,在面对内容越来越丰富、数量越来越庞大的互联网用户生成文本内容时,上述方式很难满足对大量新型复杂文本的审核需求。
技术实现思路
本申请实施例提供一种文本审核方法、装置及系统,用以实现对文本内容进行审核,判断是否包含有违禁内容。第一方面,本申请实施例提供的一种文本审核方法,包括:获取待审核文本;根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;根据所述评分确定所述待审核文本是否包含违禁内容。在上述实施例中,采用了通过深度学习得到的语言模型结合敏感词表的审核方式,有效保证了文本审核的准确 ...
【技术保护点】
1.一种文本审核方法,其特征在于,包括:获取待审核文本;根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;根据所述评分确定所述待审核文本是否包含违禁内容。
【技术特征摘要】
1.一种文本审核方法,其特征在于,包括:获取待审核文本;根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;根据所述评分确定所述待审核文本是否包含违禁内容。2.如权利要求1所述的方法,其特征在于,所述根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,包括:根据下述公式确定所述第一分数scoresk:其中,m表示所述待审核文本中包含的第k个违禁类别的敏感词的数量,wjk表示所述待审核文本中包含的第j个敏感词在所述第k个违禁类别中的权重;所述第一分数scoresk越高表示所述待审核存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。3.如权利要求1所述的方法,其特征在于,所述根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数,包括:根据下述公式确定所述第二分数scoreMk:scoreMk=fM(x)其中,x表示待审核文本,fM(·)表示所述第k个违禁类别的审核模型;所述第二分数scoreMk越高表示所述待审核文本存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。4.如权利要求1所述的方法,其特征在于,所述根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分,包括:根据下述公式确定所述待审核文本在所述第k个违禁类别上的评分scorek:scorek=γkscoresk+(1-γk)scoreMk其中,γk表示评分scoresk的权重;所述评分scorek越高表示所述待审核文本存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。5.如权利要求1所述的方法,其特征在于,所述根据所述评分确定所述待审核文本是否包含违禁内容,包括:若所述待审核文本在至少一个违禁类别上的评分大于或等于第一阈值,则确定所述待审核文本存在违禁内容。6.如权利要求5所述的方法,其特征在于,还包括:若所述待审核文本在至少一个违禁类别上的评分小于所述第一阈值,且大于第二阈值,则将所述待审核文本显示在人工审核窗口中,并接收人工审核结果,根据人工审核结果确定所述待审核文本是否存在违禁内容。7.一种文本审核方装置,其特征在于,包括:获取模块,用于获取待审核文本;评分模块,用于根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;确定模块,用于根据所述评分确定所述待审核文本是否包含违禁内容。8.如权利要求7所述的装置,其特征在于,所述评分模块,具体用于:根据下述公式确定所述第一分数scoresk:其中,m表示所述待审核文本中包含的第k个违禁类别的敏感词的数量,wjk表示所述待审核文本中包含的第j个敏感词在所述第k个违禁类别中的权重;所述第一分数scoresk越高表示所述待审核存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。9.如权利要求7所述的装置,其特征在于,所述评分模块,具体用于:根据下述公式确定所述第二分数scoreMk:scoreMk=fM(x)其中,x表示待审核文本;fM(·)表示所述第k个违禁类别的审核模型;所述第二分数scoreMk越高表示所述待审核存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。10.如权利要求7所述的装置,其特征在于,所述评分模块,具体用于:根据下述公式确定所述待审核文本在所述第k个违禁类别上的评分scorek:scorek=γks...
【专利技术属性】
技术研发人员:杨溥,郭宏洲,徐唐,沈仁奎,邓鑫鑫,
申请(专利权)人:北京思维造物信息科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。