不良信息的识别方法、装置和系统制造方法及图纸

技术编号:33338077 阅读:18 留言:0更新日期:2022-05-08 09:21
本公开涉及不良信息的识别方法、装置和系统。公开了一种不良信息的识别方法,包括:将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合;将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合;确定第一集合中的每个类别的第一可能性值,第一可能性值表示不良信息为第一集合中的每个类别的可能性;确定第二集合中的每个类别的第二可能性值,第二可能性值表示不良信息为第二集合中的每个类别的可能性;以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值,并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。信息的类别。信息的类别。

【技术实现步骤摘要】
不良信息的识别方法、装置和系统


[0001]本公开总体涉及内容安全领域,更具体地涉及不良信息的识别。

技术介绍

[0002]不良信息的智能识别是内容安全的核心技术。文本类不良信息识别的技术主要有两种:敏感词库匹配识别;基于对不良信息样本监督学习的机器分类模型识别。这两种技术不仅能够从文本中识别出不良信息,还能够识别不良信息的类别。目前的不良信息识别方法有以下几种:
[0003]1)选取其中一种技术实现;
[0004]2)通过串行两种技术进行不良信息二次过滤,即先使用一种技术进行不良信息的分类识别,之后使用另一种技术对被识别成不良信息的文本进行二次识别;以及
[0005]3)通过并行两种技术,去重合并识别结果,即分别通过两种技术各自对文本进行识别,然后将结果简单合并。
[0006]以上方法中存在以下缺陷:
[0007]1)若只依赖敏感词库匹配技术,会丢失对文本信息的语义信息,造成误报率高;若只依赖于机器学习的分类模型,对训练样本的要求高,需要大量均衡的不良信息样本,同时实时更新比较困难;
[0008本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不良信息的识别方法,包括:将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合;将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合;确定第一集合中的每个类别的第一可能性值,第一可能性值表示不良信息为第一集合中的相应类别的可能性;确定第二集合中的每个类别的第二可能性值,第二可能性值表示不良信息为第二集合中的相应类别的可能性;以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值,并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。2.如权利要求1所述的识别方法,其中,确定第一集合中的每个类别的第一可能性值包括:基于机器学习模型针对每个类别的分类概率和机器学习模型识别每个类别的误差率来计算第一集合中每个类别的第一可能性值。3.如权利要求1所述的识别方法,其中,确定所述不良信息为第二集合中的每个类别的第二可能性值包括:基于敏感词匹配算法的总体准确率和敏感词匹配算法识别每个类别的误差率来计算第二集合中每个类别的第二可能性值。4.如权利要求2所述的识别方法,还包括:将机器学习模型识别每个类别的误差率转换为泛化系数,其中误差率越小,所述泛化系数越大。5.如权利要求3所述的识别方法,还包括:将敏感词匹配算法识别每个类别的误差率转换为泛化系数,其中误差率越小,所述泛化系数越大。6.如权利要求2所述的识别方法,其中,机器学习模型针对每个类别的分类概率和机器学习模型识别每个类别的误差率是通过将测试数据集输入机器学习模型进行测试,并对测试的分类结果进行统计分析得到的。7.如权利要求3所述的识别方法,其中,敏感词匹配算法的总体准确率和敏感词匹配算法识别每个类别的误差率是通过...

【专利技术属性】
技术研发人员:汪少敏王铮杨迪任华马兆铭渠凯田庆华
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1