一种文本审核方法、装置及系统制造方法及图纸

技术编号:22532067 阅读:14 留言:0更新日期:2019-11-13 09:18
本申请公开了一种文本审核方法、装置及系统,用于实现更为准确的文本审核。该方法:根据敏感词表确定文本的第一分数;根据审核模型确定文本第二分数;根据第一分数、第二分数确定文本在第k个违禁类别上的评分,判断文本是否包含违禁内容。该系统:审核模块,根据第一模型和第一敏感词表对文本审核,输出审核结果;模型训练模块,根据历史数据训练第二模型并评估第二模型的性能;若第二模型的性能高于第一模型,将第二模型发给审核模块;敏感词评估模块,获取第二敏感词表,用第二模型对第二敏感词表评估,根据评估结果调整第二敏感词,将调整后的第二敏感词表发给审核模块;审核模块将第二模型替换第一模型,根据第二敏感词表更新第一敏感词表。

A text review method, device and system

The application discloses a text review method, device and system for realizing more accurate text review. This method: the first score of the text is determined according to the sensitive vocabulary; the second score of the text is determined according to the audit model; the score of the text on the K prohibited categories is determined according to the first score and the second score to determine whether the text contains prohibited content. This system: the audit module, according to the first model and the first sensitive thesaurus, check the text and output the audit results; the model training module trains the second model according to historical data and evaluates the performance of the second model; if the second model performs better than the first model, the second model is distributed to the audit module; the sensitive word evaluation module obtains second sensitive words lists, and the second model is used for the first part. Two sensitive word list assessment, adjusted second sensitive words according to the evaluation results, and sent the adjusted second sensitive thesaurus to the audit module; the audit module replaced the first model with the second model, and updated the first sensitive word list according to the second sensitive vocabulary.

【技术实现步骤摘要】
一种文本审核方法、装置及系统
本申请涉及文本信息处理
,尤其涉及一种文本审核方法、装置及系统。
技术介绍
随着互联网的高速发展,用户可以更加自由地发布原创内容,用户生成内容(UserGeneratedContent,UGC)的数量急剧增长。尤其是在文本领域,用户可以随意发布自己的观点、评论等。然而,部分用户的原创内容存在涉黄、涉恐、涉政或者广告等不适合公开发布的违禁内容,这些内容的发布将会影响内容平台其他用户的使用体验,甚至对社会产生一定的危害性。目前,许多网站为识别违禁内容,采用关键词过滤等策略加人工审核的方式,以避免违禁内容的发布。然而,受限于过滤策略以及人工处理速度,在面对内容越来越丰富、数量越来越庞大的互联网用户生成文本内容时,上述方式很难满足对大量新型复杂文本的审核需求。
技术实现思路
本申请实施例提供一种文本审核方法、装置及系统,用以实现对文本内容进行审核,判断是否包含有违禁内容。第一方面,本申请实施例提供的一种文本审核方法,包括:获取待审核文本;根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;根据所述评分确定所述待审核文本是否包含违禁内容。在上述实施例中,采用了通过深度学习得到的语言模型结合敏感词表的审核方式,有效保证了文本审核的准确性,能够对大量的新型复杂文本进行审核。第二方面,本申请实施例提供的一种文本审核装置,包括:获取模块,用于获取待审核文本;评分模块,用于根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;确定模块,用于根据所述评分确定所述待审核文本是否包含违禁内容。第三方面,本申请实施例提供的一种文本审核系统,包括:审核模块,用于根据第一模型和第一敏感词表对待审核文本进行审核,并输出审核结果;模型训练模块,用于获取历史文本数据,所述历史文本数据包括审核文本和所述审核文本是否包含于违禁内容的判断结果;根据所述历史文本数据训练第二模型,根据所述历史文本数据对所述第二模型进行测试,根据测试结果对第二模型的性能进行评估;若所述第二模型的性能高于所述第一模型的性能,则将所述第二模型发给审核模块;敏感词评估模块,用于获取第二敏感词表,使用所述第二模型对所述第二敏感词表进行评估,根据评估结果对所述第二敏感词表进行调整,将调整后的第二敏感词表发送给所述审核模块;审核模块还用于:在接收到所述第二模型后,将所述第二模型替换所述第一模型;和/或,在接收到所述第二敏感词表后,根据所述第二敏感词表更新所述第一敏感词表。在上述实施例中,文本审核系统中的模型训练模块一直在训练新模型以应对新型复杂文本,有助于提高文本审核系统的及时性、准确性。第四方面,本申请实施例提供一种文本审核设备,包括:至少一个处理器,与所述至少一个处理器通信连接的存储器;所述至少一个处理器用于读取所述存储器中的程序,用于执行上述第一方面中的文本审核方法。第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第一方面中的文本审核方法。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的文本审核方法的流程示意图;图2为本申请实施例提供的文本装置的结构示意图;图3为本申请实施例提供的文本系统的结构示意图;图4为本申请实施例提供的文本系统的工作流程示意图之一;图5为本申请实施例提供的文本系统的工作流程示意图之二。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。随着互联网技术的发展,用户之间的知识、信息、观点分享越来越方便。但同时也带来了一些问题,一些涉及黄色、涉及暴力或者广告类的内容也能够轻易发布,给其他用户带来了不好的用户体验,还可能给青少年造成不良影响。为了解决上述问题,本申请实施例提供了一种文本审核方法、装置及系统,用于实现对文本内容进行审核,判断文本中是否包含有违禁内容,进而有利于营造良好的网络环境。参见图1,为本申请实施例提供的一种文本审核方法的流程示意图,如图所示,该方法可以包括以下步骤:步骤101、获取待审核文本。例如,在一些论坛平台中,不同用户可以在同一话题中发表各自的言论,可以将每个用户发表的文本内容作为一个文本x(i),而同一话题下多个用户发表的文本内容则可以构成一个文本集合Xinput={x(0),x(1),...,x(m)}。文本审核系统可以每次从文本集合中获取一个文本x(i)作为待审核文本对其进行审核,或者,若文本审核系统性能较高同时对多个文本x(i)进行并行处理,则获取的待审核文本也可以是一个文本集合。为了描述方便,下面均以一个文本x(i)作为待审核文本进行举例说明。步骤102、根据敏感词表确定待审核文本中包含的第k个违禁类别的敏感词,根据包含的第k个违禁类别的敏感词确定该待审核文本在第k个违禁类别上的第一分数。其中,k=1,2,...,N;N表示违禁类别的数量。不适合公开发表的文本内容可以划分为不同的违禁类别,例如,涉及黄色的内容,涉及暴力的内容,涉及政治敏感的内容,涉及广告的内容等等,涉黄、涉暴的内容容易给青少年造成不良影响,而无处不在的广告给用户造成较差的使用体验,文本审核系统因此将其作为违禁内容对其进行过滤。针对每个违禁类别,可以根据以往的经验积累、网信办收集的数据,设置相应的敏感词表,例如,涉及暴力的内容中经常会出现“殴打”、“嗜血”等词汇,则可以将“殴打”、“嗜血”作为涉暴类别的敏感词。针对每个违禁类别,分别确定待审核文本包含有该违禁类别对应的敏感词表中的哪些敏感词,并根据包含的敏感词确定待审核文本在该违禁类别上的第一分数。进一步地,还可以对每个敏感词配置其在对应的违禁类别中的权重,相应地,上述步骤102则根据包含的敏感词及每个敏感词对应的权重确定第一分数。例如,“殴打”、“嗜血”等词汇可能出现在一些渲染暴力的内容中,但也可能出现在正常的新闻内容中,若待审核文本中出现了某个敏感词,该待审核文本是否包含有违禁内容的概率的高低,可以用其权重表示,即,敏感词的权重越高,表示该敏感词所在文本含有违禁内容的可能性越大。当然,敏感词的权重的设置还可能本文档来自技高网...

【技术保护点】
1.一种文本审核方法,其特征在于,包括:获取待审核文本;根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;根据所述评分确定所述待审核文本是否包含违禁内容。

【技术特征摘要】
1.一种文本审核方法,其特征在于,包括:获取待审核文本;根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;根据所述评分确定所述待审核文本是否包含违禁内容。2.如权利要求1所述的方法,其特征在于,所述根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,包括:根据下述公式确定所述第一分数scoresk:其中,m表示所述待审核文本中包含的第k个违禁类别的敏感词的数量,wjk表示所述待审核文本中包含的第j个敏感词在所述第k个违禁类别中的权重;所述第一分数scoresk越高表示所述待审核存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。3.如权利要求1所述的方法,其特征在于,所述根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数,包括:根据下述公式确定所述第二分数scoreMk:scoreMk=fM(x)其中,x表示待审核文本,fM(·)表示所述第k个违禁类别的审核模型;所述第二分数scoreMk越高表示所述待审核文本存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。4.如权利要求1所述的方法,其特征在于,所述根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分,包括:根据下述公式确定所述待审核文本在所述第k个违禁类别上的评分scorek:scorek=γkscoresk+(1-γk)scoreMk其中,γk表示评分scoresk的权重;所述评分scorek越高表示所述待审核文本存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。5.如权利要求1所述的方法,其特征在于,所述根据所述评分确定所述待审核文本是否包含违禁内容,包括:若所述待审核文本在至少一个违禁类别上的评分大于或等于第一阈值,则确定所述待审核文本存在违禁内容。6.如权利要求5所述的方法,其特征在于,还包括:若所述待审核文本在至少一个违禁类别上的评分小于所述第一阈值,且大于第二阈值,则将所述待审核文本显示在人工审核窗口中,并接收人工审核结果,根据人工审核结果确定所述待审核文本是否存在违禁内容。7.一种文本审核方装置,其特征在于,包括:获取模块,用于获取待审核文本;评分模块,用于根据敏感词表确定所述待审核文本中包含的第k个违禁类别的敏感词,根据所述包含的第k个违禁类别的敏感词确定所述待审核文本在所述第k个违禁类别上的第一分数,k=1,2,...,N,其中,N表示违禁类别的数量;根据第k个违禁类别的审核模型确定所述待审核文本在所述第k个违禁类别上的第二分数;根据所述第一分数和所述第二分数确定所述待审核文本在所述第k个违禁类别上的评分;确定模块,用于根据所述评分确定所述待审核文本是否包含违禁内容。8.如权利要求7所述的装置,其特征在于,所述评分模块,具体用于:根据下述公式确定所述第一分数scoresk:其中,m表示所述待审核文本中包含的第k个违禁类别的敏感词的数量,wjk表示所述待审核文本中包含的第j个敏感词在所述第k个违禁类别中的权重;所述第一分数scoresk越高表示所述待审核存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。9.如权利要求7所述的装置,其特征在于,所述评分模块,具体用于:根据下述公式确定所述第二分数scoreMk:scoreMk=fM(x)其中,x表示待审核文本;fM(·)表示所述第k个违禁类别的审核模型;所述第二分数scoreMk越高表示所述待审核存在违禁内容的风险越高,反之,表示所述待审核文本存在违禁内容的风险越低。10.如权利要求7所述的装置,其特征在于,所述评分模块,具体用于:根据下述公式确定所述待审核文本在所述第k个违禁类别上的评分scorek:scorek=γks...

【专利技术属性】
技术研发人员:杨溥郭宏洲徐唐沈仁奎邓鑫鑫
申请(专利权)人:北京思维造物信息科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1