文本处理方法、装置及电子设备制造方法及图纸

技术编号:37842601 阅读:17 留言:0更新日期:2023-06-14 09:47
本公开提供了文本处理方法,涉及内容审核、敏感词匹配等技术领域。具体方案:获取待发布文本及包括多个敏感词及每个敏感词对应的第一权重的参考词表;基于参考词表,对将待发布文本进行遍历,确定待发布文本中包含的目标敏感词集;在目标敏感词集中目标敏感词的数量小于第一阈值,且头部目标敏感词的数量小于第二阈值情况下,利用文本处理模型,对待发布文本进行处理,确定待发布文本的敏感概率;根据每个目标敏感词的第一权重及敏感概率,确定是否对待发布文本进行封禁处理。从而提高了文本处理的可靠性。处理的可靠性。处理的可靠性。

【技术实现步骤摘要】
文本处理方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及内容风控、敏感词检测等
,具体涉及文本处理方法、装置及电子设备。

技术介绍

[0002]随着互联网时代的到来,海量网络资源使得人们日常生活、社会交流、学习工作等变得越来越方便快捷。但是人们在享受着互联网带来的便利的同时,也有不少人利用互联网发布一些不良信息,造成诸多的不良影响。因此对待发布内容进行审核,过滤至关重要。

技术实现思路

[0003]本公开提供了一种文本处理方法、装置及电子设备。
[0004]根据本公开的一方面,提供了一种文本处理方法,包括:
[0005]获取待发布文本及参考词表,其中,参考词表中包括多个敏感词及每个敏感词对应的第一权重;
[0006]基于参考词表,对待发布文本进行遍历,确定待发布文本中包含的目标敏感词集;
[0007]在目标敏感词集中目标敏感词的数量小于第一阈值,且头部目标敏感词的数量小于第二阈值情况下,利用文本处理模型,对待发布文本进行处理,确定待发布文本的敏感概率,其中,头部目标敏感本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,所述方法包括:获取待发布文本及参考词表,其中,所述参考词表中包括多个敏感词及每个所述敏感词对应的第一权重;基于所述参考词表,对所述待发布文本进行遍历,确定所述待发布文本中包含的目标敏感词集;在所述目标敏感词集中目标敏感词的数量小于第一阈值,且头部目标敏感词的数量小于第二阈值情况下,利用文本处理模型,对所述待发布文本进行处理,确定所述待发布文本的敏感概率,其中,所述头部目标敏感词为第一权重大于第三阈值的目标敏感词;根据每个所述目标敏感词的第一权重及所述敏感概率,确定是否对所述待发布文本进行封禁处理。2.如权利要求1所述方法,其中,还包括:获取所述敏感词的第一权重的更新请求,其中,所述更新请求中包括待更新敏感词,及所述待更新敏感词的类型;在所述待更新敏感词的类型为遗漏数据类型,且所述参考词表中不包含所述待更新敏感词的情况下,在所述参考词表中添加所述待更新敏感词,并将所述待更新敏感词对应的第一权重设置为默认权重;在所述待更新敏感词的类型为遗漏数据类型,且所述参考词表中包含所述待更新敏感词的情况下,增大所述参考词表中所述待更新敏感词对应的第一权重;在所述待更新敏感词的错误类型为误招数据类型,且所述参考词表中包含所述待更新敏感词的情况下,减小所述参考词表中所述待更新敏感词对应的第一权重。3.如权利要求2所述方法,其中,还包括:所述更新请求中还包括所述待更新敏感词对应的第二权重,利用所述第二权重,更新所述参考词表中所述待更新敏感词对应的第一权重。4.如权利要求1所述方法,其中,所述根据每个所述目标敏感词的第一权重及所述敏感概率,确定是否对所述待发布文本进行封禁处理,包括:将每个所述目标敏感词对应的第一权重与所述目标敏感词集中所有目标敏感词对应的第一权重之和的比值,确定为每个所述目标敏感词对应的第一权重的系数;基于各个所述目标敏感词的第一权重和系数的乘积之和,对所述敏感概率进行修正;在修正后的敏感概率大于第四阈值的情况下,对所述待发布文本进行封禁处理。5.如权利要求1所述方法,其中,所述根据每个所述目标敏感词的第一权重及所述敏感概率,确定是否对所述待发布文本进行封禁处理,包括:在所述目标敏感词对应的第一权重中的最大值在第一预设范围内,且所述敏感概率大于第五阈值的情况下,增大所述敏感概率;在所述目标敏感词对应的第一权重中的最大值在第二预设范围内,且所述敏感概率大于第五阈值的情况下,减小所述敏感概率,其中,所述第一预设范围的最小值大于或等于所述第二预设范围的最大值,且所述第一预设范围的最大值小于所述第三阈值;在修正后的敏感概率大于第四阈值的情况下,对所述待发布文本进行封禁处理。6.如权利要求1所述方法,其中,还包括:在预设时间段内,任一敏感词对应的第一权重及更新后的第一权重均小于第六阈值的
情况下,删除所述参考词表中所述任一敏感词。7.如权利要求1所述方法,其中,还包括:在所述目标敏感词的数量大于第一阈值,或者所述头部目标敏感词的数量大于第二阈值情况下,对所述待发布文本进行封禁处理。8.一种文本处理装置,所述方法包括:获取模块,用于获取待发布文本及参考词表,其中,所述参考词表中包括多个敏感词及每个所述敏感词对应的第一权重;确定模块,用于基于所述参考词表,对所述待发布文本进行遍历,确定...

【专利技术属性】
技术研发人员:张华正包沉浮王洋吕中厚黄英仁田伟娟干逸显高梦晗
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1