【技术实现步骤摘要】
文本处理方法、装置及电子设备
[0001]本公开涉及人工智能
,尤其涉及内容风控、敏感词检测等
,具体涉及文本处理方法、装置及电子设备。
技术介绍
[0002]随着互联网时代的到来,海量网络资源使得人们日常生活、社会交流、学习工作等变得越来越方便快捷。但是人们在享受着互联网带来的便利的同时,也有不少人利用互联网发布一些不良信息,造成诸多的不良影响。因此对待发布内容进行审核,过滤至关重要。
技术实现思路
[0003]本公开提供了一种文本处理方法、装置及电子设备。
[0004]根据本公开的一方面,提供了一种文本处理方法,包括:
[0005]获取待发布文本及参考词表,其中,参考词表中包括多个敏感词及每个敏感词对应的第一权重;
[0006]基于参考词表,对待发布文本进行遍历,确定待发布文本中包含的目标敏感词集;
[0007]在目标敏感词集中目标敏感词的数量小于第一阈值,且头部目标敏感词的数量小于第二阈值情况下,利用文本处理模型,对待发布文本进行处理,确定待发布文本的敏感概率 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,所述方法包括:获取待发布文本及参考词表,其中,所述参考词表中包括多个敏感词及每个所述敏感词对应的第一权重;基于所述参考词表,对所述待发布文本进行遍历,确定所述待发布文本中包含的目标敏感词集;在所述目标敏感词集中目标敏感词的数量小于第一阈值,且头部目标敏感词的数量小于第二阈值情况下,利用文本处理模型,对所述待发布文本进行处理,确定所述待发布文本的敏感概率,其中,所述头部目标敏感词为第一权重大于第三阈值的目标敏感词;根据每个所述目标敏感词的第一权重及所述敏感概率,确定是否对所述待发布文本进行封禁处理。2.如权利要求1所述方法,其中,还包括:获取所述敏感词的第一权重的更新请求,其中,所述更新请求中包括待更新敏感词,及所述待更新敏感词的类型;在所述待更新敏感词的类型为遗漏数据类型,且所述参考词表中不包含所述待更新敏感词的情况下,在所述参考词表中添加所述待更新敏感词,并将所述待更新敏感词对应的第一权重设置为默认权重;在所述待更新敏感词的类型为遗漏数据类型,且所述参考词表中包含所述待更新敏感词的情况下,增大所述参考词表中所述待更新敏感词对应的第一权重;在所述待更新敏感词的错误类型为误招数据类型,且所述参考词表中包含所述待更新敏感词的情况下,减小所述参考词表中所述待更新敏感词对应的第一权重。3.如权利要求2所述方法,其中,还包括:所述更新请求中还包括所述待更新敏感词对应的第二权重,利用所述第二权重,更新所述参考词表中所述待更新敏感词对应的第一权重。4.如权利要求1所述方法,其中,所述根据每个所述目标敏感词的第一权重及所述敏感概率,确定是否对所述待发布文本进行封禁处理,包括:将每个所述目标敏感词对应的第一权重与所述目标敏感词集中所有目标敏感词对应的第一权重之和的比值,确定为每个所述目标敏感词对应的第一权重的系数;基于各个所述目标敏感词的第一权重和系数的乘积之和,对所述敏感概率进行修正;在修正后的敏感概率大于第四阈值的情况下,对所述待发布文本进行封禁处理。5.如权利要求1所述方法,其中,所述根据每个所述目标敏感词的第一权重及所述敏感概率,确定是否对所述待发布文本进行封禁处理,包括:在所述目标敏感词对应的第一权重中的最大值在第一预设范围内,且所述敏感概率大于第五阈值的情况下,增大所述敏感概率;在所述目标敏感词对应的第一权重中的最大值在第二预设范围内,且所述敏感概率大于第五阈值的情况下,减小所述敏感概率,其中,所述第一预设范围的最小值大于或等于所述第二预设范围的最大值,且所述第一预设范围的最大值小于所述第三阈值;在修正后的敏感概率大于第四阈值的情况下,对所述待发布文本进行封禁处理。6.如权利要求1所述方法,其中,还包括:在预设时间段内,任一敏感词对应的第一权重及更新后的第一权重均小于第六阈值的
情况下,删除所述参考词表中所述任一敏感词。7.如权利要求1所述方法,其中,还包括:在所述目标敏感词的数量大于第一阈值,或者所述头部目标敏感词的数量大于第二阈值情况下,对所述待发布文本进行封禁处理。8.一种文本处理装置,所述方法包括:获取模块,用于获取待发布文本及参考词表,其中,所述参考词表中包括多个敏感词及每个所述敏感词对应的第一权重;确定模块,用于基于所述参考词表,对所述待发布文本进行遍历,确定...
【专利技术属性】
技术研发人员:张华正,包沉浮,王洋,吕中厚,黄英仁,田伟娟,干逸显,高梦晗,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。