The application discloses a method and system for checking content of chat based on sensitive words. The chat content auditing method includes: dividing the sensitive word library into at least two sets of sensitive words containing the jargon set; matching each set of sensitive words with the text library to generate the corresponding text set of each set of sensitive words; and machine learning the text in the text set as training material. Processing, the classification audit model corresponding to each set of sensitive words is generated; the text to be audited is sent to one or more classification audit models for auditing, and the auditing results are obtained. This application solves the problem that the existing text auditing system can easily lead to misjudgment only by keyword comparison, and can not respond to new words and jargon timely and effectively.
【技术实现步骤摘要】
基于敏感词的聊天内容审核方法及系统
本申请涉及一种文本内容审核方法,具体而言,涉及一种基于敏感词的聊天内容审核方法及系统。
技术介绍
随着网络的普及和迅速发展,网络游戏、手机游戏已经取代了单机游戏,成为了电子游戏的主流。相比于单机游戏,网络游戏、手机游戏最重要的一个特点是这些游戏都是有多名玩家共同参与的,在游戏期间,玩家与玩家之间也必然会产生交流。因此,也会产生很多不符合国家法律法规的言论,对游戏的运营产生风险。另一方面,玩家之家的恶言恶语会使得游戏环境变差,造成玩家的流失,而一些违规的账号交易更是会直接影响到运营方的营收。因此,在玩家发表自己的言论之前进行必要的审核是必不可少的一个环节。所以,构建一套具有针对性的文本审核系统具有重要的应用意义。传统的文本审核系统一般都是通过关键词与待审核文本直接进行匹配来判断一段文本是否违规,这样做的问题是经常会出现误杀的情况。例如当玩家的聊天内容中包含了曹操时,很有可能会因为那个操字导致被判定为违法文本。此外,互联网热点事件的产生会导致一些新词的诞生,这些新词在短期内具有较高的关注度和较强的传播能力。其中一些涉及到游戏的词,例如游戏“守望先锋”被玩家戏称为“守望屁股”,如果因为屁股这个词而判定“守望屁股”为违规样本显然是有问题的。另外,对于违规交易例如账号买卖等行为,由于涉及利益,交易者在发现交易词被系统屏蔽时往往不会善罢甘休,而是会想方设法弄出一套所谓行话来继续交易,例如某手游中使用人民币购买游戏中虚拟货币的行为称之为收菜。如果无法及时对新词、行话做出反应,便无法对这些带有新词、行话的文本进行准确的分类,最终将导致整 ...
【技术保护点】
1.一种基于敏感词的聊天内容审核方法,其特征在于,包括:根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。
【技术特征摘要】
1.一种基于敏感词的聊天内容审核方法,其特征在于,包括:根据预设的分类方法将敏感词词库划分成至少两个敏感词集合;将每个所述敏感词集合与文本库进行匹配,生成每个所述敏感词集合对应的文本集合;将所述文本集合中的文本作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型;将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果。2.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,包括:接收待添加的敏感词,并根据所述预设的分类方法将所述待添加的敏感词添加到对应的所述敏感词集合中。3.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,所述将所述文本集合中的文本作为训练材料进行机器学习,生成每个所述敏感词集合对应的分类审核模型,包括:将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果;对所述文本的分词结果进行独热编码处理,得到所述文本的独热编码;将所述文本集合中所有文本的独热编码作为训练材料进行机器学习处理,生成每个所述敏感词集合对应的分类审核模型。4.根据权利要求3所述的基于敏感词的聊天内容审核方法,其特征在于,所述将所述文本集合中的文本按照预设的文本分解模型进行分词处理,得到文本的分词结果,包括:对所述文本集合中的文本按照是否被判定为违规文本进行分类,将每个文本集合划分成违规文本集合和正常文本集合;将所述违规文本集合和所述正常文本集合中的文本均按照预设的文本分解模型进行分词处理,得到文本的分词结果。5.根据权利要求1所述的基于敏感词的聊天内容审核方法,其特征在于,所述将待审核的文本送入一个或多个分类审核模型中进行审核,并得出审核结果,包括:将所述待审核的文本与每个的所述敏...
【专利技术属性】
技术研发人员:周颢钰,文辉,纪达麒,陈运文,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。