【技术实现步骤摘要】
一种数据处理方法、系统、存储介质及电子设备
[0001]本申请涉及数据内容审核
,更具体地说,涉及一种数据处理方法、系统、存储介质及电子设备。
技术介绍
[0002]互联网业务平台的交互场景,如用户聊天、电商评论、帖子、留言等多个场景中,会产生内容信息,内容信息包括广告、新闻等。对于互联网的内容都有相应的法律和法规,一旦违规,就可能会导致网站或APP整改或下架关停。为满足规定,形成健康内容生态,需要对互联网业务平台所产生的内容信息进行实时审核。
[0003]现有技术中,对内容进行审核是通过采用机审加人审的模式进行,机审进行初步审核,对疑似的内容进行标注,由人工审核后再进行发布审核结果。机审主要通过建立词库对目标文本进行过滤,如果目标文本匹配了词库中的关键词,则判定目标文本为违规文本。
[0004]由于词库内的词库包括各种广告、新闻等多个大类,大类中又包含多个小类,因此通过词库匹配关键词,造成匹配速度慢,并且当遇到各种形态的关键词,如同音词、形近词等,通过关键词对内容信息进行审核的识别率低。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待审核内容;对所述待审核内容进行预处理,得到预设格式的内容片段,并将所述内容片段存储至预设分布式消息队列;将所述预设分布式消息队列中的内容片段分别发送至预设词库检索模型和预设AI识别模型进行识别,得到第一识别结果和第二识别结果;所述预设词库检索模型用于识别敏感词及其对应的风险类型;所述预设AI识别模型用于识别违规类型;对所述第一识别结果和所述第二识别结果进行审核处理,得到审核结果并输出。2.根据权利要求1所述的方法,其特征在于,所述对所述待审核内容进行预处理,得到预设格式的内容片段,包括:若监测到所述待审核内容中存在预设字符,则去除所述待审核内容中的所述预设字符,得到无预设字符的待审核内容;通过预设语义算法对所述无预设字符的待审核内容进行计算,得到原始内容片段;将所述原始内容片段进行语法转换,得到预设格式的内容片段。3.根据权利要求1所述的方法,其特征在于,所述将所述预设分布式消息队列中的内容片段分别发送至预设敏感词库检索模型和预设AI识别模型进行识别,得到第一识别结果和第二识别结果,包括:识别处于空闲状态的预设词库检索模型对应的集群节点和处于空闲状态的预设AI识别模型对应的集群节点;将所述预设分布式消息队列中的内容片段分别发送至所述处于空闲状态的预设词库检索模型对应的集群节点和所述处于空闲状态的预设AI识别模型对应的集群节点进行识别,得到第一识别结果和第二识别结果;所述第一识别结果由所述处于空闲状态的预设词库检索模型对应的集群节点识别得到;所述第二识别结果由所述处于空闲状态的预设AI识别模型对应的集群节点识别得到。4.根据权利要求1所述的方法,其特征在于,所述对所述第一识别结果和所述第二识别结果进行审核处理,得到审核结果并输出,包括:确定所述第一识别结果对应的第一结果类型和所述第二识别结果对应的第二结果类型;对所述第一识别结果对应的第一结果类型和所述第二识别结果对应的第二结果类型进行判定;和/或,若所述第一结果类型为有风险类型,且所述第二结果类型为预设违规类型,则将得到的审核结果对应的标签标注为违规标签,并输出标注违规标签的审核结果;和/或,若所述第一结果类型为所述有风险类型,且所述第二结果类型为预设疑似违规类型,则将得到的审核结果对应的标签标注为违规标签,并输出标注违规标签的审核结果;和/或,若所述第一结果类型为所述有风险类型,且所述第二结果类型为预设合规类型,则将得到的审核结果对应的标签标注为违规标签,并输出标注违规标签的审核结果;和/或,若所述第一结果类型为无风险类型,且所述第二结果类型为所述预设违规类型,则将得到的审核结果对应的标签标注为违规标签,并输出标注违规标签的审...
【专利技术属性】
技术研发人员:梁志勇,
申请(专利权)人:京东科技信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。