基于敏感词的聊天内容审核方法及系统技术方案

技术编号:19140375 阅读:173 留言:0更新日期:2018-10-13 08:42
本申请公开了一种基于敏感词的聊天内容审核方法及系统。该聊天内容审核方法包括:将敏感词词库划分成包含行话集合的至少两个敏感词集合;将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。本申请解决了解决现有的文本审核系统仅通过关键词对比进行审核容易导致误判,以及无法及时有效的对新词、行话做出反应的问题。

Method and system for checking content of chat based on sensitive words

The application discloses a method and system for checking content of chat based on sensitive words. The chat content auditing method includes: dividing the sensitive word library into at least two sets of sensitive words containing the jargon set; matching each set of sensitive words with the text library to generate the corresponding text set of each set of sensitive words; and machine learning the text in the text set as training material. Processing, the classification audit model corresponding to each set of sensitive words is generated; the text to be audited is sent to one or more classification audit models for auditing, and the auditing results are obtained. This application solves the problem that the existing text auditing system can easily lead to misjudgment only by keyword comparison, and can not respond to new words and jargon timely and effectively.

【技术实现步骤摘要】
基于敏感词的聊天内容审核方法及系统
本申请涉及一种文本内容审核方法,具体而言,涉及一种基于敏感词的聊天内容审核方法及系统。
技术介绍
随着网络的普及和迅速发展,网络游戏、手机游戏已经取代了单机游戏,成为了电子游戏的主流。相比于单机游戏,网络游戏、手机游戏最重要的一个特点是这些游戏都是有多名玩家共同参与的,在游戏期间,玩家与玩家之间也必然会产生交流。因此,也会产生很多不符合国家法律法规的言论,对游戏的运营产生风险。另一方面,玩家之家的恶言恶语会使得游戏环境变差,造成玩家的流失,而一些违规的账号交易更是会直接影响到运营方的营收。因此,在玩家发表自己的言论之前进行必要的审核是必不可少的一个环节。所以,构建一套具有针对性的文本审核系统具有重要的应用意义。传统的文本审核系统一般都是通过关键词与待审核文本直接进行匹配来判断一段文本是否违规,这样做的问题是经常会出现误杀的情况。例如当玩家的聊天内容中包含了曹操时,很有可能会因为那个操字导致被判定为违法文本。此外,互联网热点事件的产生会导致一些新词的诞生,这些新词在短期内具有较高的关注度和较强的传播能力。其中一些涉及到游戏的词,例如游戏“守望先锋”被玩家戏称为“守望屁股”,如果因为屁股这个词而判定“守望屁股”为违规样本显然是有问题的。另外,对于违规交易例如账号买卖等行为,由于涉及利益,交易者在发现交易词被系统屏蔽时往往不会善罢甘休,而是会想方设法弄出一套所谓行话来继续交易,例如某手游中使用人民币购买游戏中虚拟货币的行为称之为收菜。如果无法及时对新词、行话做出反应,便无法对这些带有新词、行话的文本进行准确的分类,最终将导致整个游戏环境受到极为恶劣的影响。针对上述在聊天内容审核中问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种聊天内容审核方法,以解决现有的文本审核系统仅通过关键词对比进行审核容易导致误判,以及无法及时有效的的对新词、行话做出反应的问题。为了实现上述目的,根据本申请的一个方面,提供了一种基于敏感词的聊天内容审核方法。根据本申请的基于敏感词的聊天内容审核方法包括:根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。进一步的,所述基于敏感词的聊天内容审核方法包括:接收待添加的敏感词,并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏感词集合中。进一步的,所述将所述文本集合中的文本作为训练材料进行机器学习,生成每个所述敏感词集合对应的分类审核模型,包括:将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果;对所述文本的分词结果进行独热编码处理,得到所述文本的独热编码;将所述文本集合中所有文本的独热编码作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型。进一步的,所述将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果,包括:对所述文本集合中的文本按照是否被判定为违规文本进行分类,将每个文本集合划分成违规文本集合和正常文本集合;将所述违规文本集合和所述正常文本集合中的文本均按照预设的文本分解模型进行分词处理,得到文本的分词结果。进一步的,所述将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果,包括:将所述待审核的文本与每个的所述敏感词集合进行匹配,确定所述待审核的文本对应的一个或多个所述敏感词集合;将所述待审核的文本送入所述对应的一个或多个所述敏感词集合对应的分类审核模型中进行审核,并得出审核结果。进一步的,所述基于敏感词的聊天内容审核方法包括:收集并储存所有被判定为正常的文本;对所有被判定为正常的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果;计算所述分词结果中所有词组在一定时间内的出现频率提高率,并根据词组的出现频率提高率对词组进行输出。为了实现上述目的,根据本申请的另一方面,提供了一种基于敏感词的聊天内容审核系统。根据本申请的基于敏感词的聊天内容审核系统包括:敏感词预处理模块,用于根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;文本预处理模块,用于生成每个所述敏感词集合对应的文本集合,并对每个所述文本集合中的文本进行分词、以及独热编码处理;机器学习模块,用于把每个文本集合的文本独热编码作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;分类审核模块,用于将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。进一步的,所述基于敏感词的聊天内容审核系统包括:敏感词添加模块,用于接收待添加的敏感词,并将所述待添加的敏感词添加到对应的所述敏感词集合中;疑点词反馈模块,用于检测所有被判定为正常的文本中的词组在一定时间内的出现频率提高率,并根据词组的出现频率提高率对词组进行输出。在本申请实施例中,采用将敏感词词库划分成包含行话集合的至少两个敏感词集合的方式,通过机器学习的方式为每个敏感词集合生成对应的分类审核模型,达到了提高审核准确率、以及针对行话进行审核的目的,从而解决了现有的文本审核系统仅通过关键词对比进行审核容易导致误判,以及无法及时有效的的对新词、行话做出反应的问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是第一实施例聊天内容审核方法流程示意图;图2是第二实施例聊天内容审核方法流程示意图;图3是第三实施例聊天内容审核方法流程示意图;图4是第四实施例聊天内容审核方法流程示意图;图5是第五实施例聊天内容审核方法流程示意图;图6是第六实施例聊天内容审核方法流程示意图;以及图7是实施例聊天内容审核系统结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。如图1所示,本申请涉及一种基于敏感词的聊天内容审核方法,该聊天内容审核方法包括步骤S101至步骤S104。步骤S101,根据预设的分类方法将敏感词词库划分成至少两个敏感词集合。在本步骤中,将敏感词词库中的敏感词分为三个集合,分别为严重违规词集合、疑似违规词集合、和行话集合。对于一个敏感词,如果其违规程度非常深,那么将其划入严重违规词集合;如果其仅仅类似于屁股等词,则将其划入疑似违规词集合;如果其属于当前游戏中特有的行话,则将其划入行话集。步骤S102,将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合。在本步骤中,所述文本库中储本文档来自技高网
...

【技术保护点】
1.一种基于敏感词的聊天内容审核方法,其特征在于,包括:根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。

【技术特征摘要】
1.一种基于敏感词的聊天内容审核方法,其特征在于,包括:根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。2.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,包括:接收待添加的敏感词,并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏感词集合中。3.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,所述将所述文本集合中的文本作为训练材料进行机器学习,生成每个所述敏感词集合对应的分类审核模型,包括:将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果;对所述文本的分词结果进行独热编码处理,得到所述文本的独热编码;将所述文本集合中所有文本的独热编码作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型。4.根据权利要求3所述的基于敏感词的聊天内容审核方法,其特征在于,所述将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果,包括:对所述文本集合中的文本按照是否被判定为违规文本进行分类,将每个文本集合划分成违规文本集合和正常文本集合;将所述违规文本集合和所述正常文本集合中的文本均按照预设的文本分解模型进行分词处理,得到文本的分词结果。5.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,所述将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果,包括:将所述待审核的文本与每个的所述敏...

【专利技术属性】
技术研发人员:周颢钰文辉纪达麒陈运文
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1