敏感词数据处理方法、装置和电子设备制造方法及图纸

技术编号:31025210 阅读:24 留言:0更新日期:2021-11-30 03:25
本申请提供一种敏感词数据处理方法、装置和电子设备,涉及数据处理技术,该方法包括:获取待检测文本;利用预设词典中的敏感词词库对所述待检测文本进行检测,确定文本敏感词,其中,所述敏感词词库包括多个疑似敏感词;若确定所述文本敏感词对应的检测类型为上下文敏感类型,则对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,并生成敏感词提示信息。本申请的方法,通过对待检测文本中的文本敏感词进行上下文匹配处理,可以确定待检测文本的目标敏感词,并生成敏感词提示信息,进而,提高了识别敏感词的准确率,便于用户根据敏感词提示信息确定、修改敏感词。修改敏感词。修改敏感词。

【技术实现步骤摘要】
敏感词数据处理方法、装置和电子设备


[0001]本申请涉及数据处理技术,尤其涉及一种敏感词数据处理方法、装置和电子设备。

技术介绍

[0002]目前,随着互联网的日益发展,各种网页消息的传播速度极快,具体的,网页消息的种类较多,主要包括健康消息及不健康消息,例如,不健康消息包括色情、暴力等信息,所以,一旦不健康词语在网络中肆意传播,会严重影响网络环境。从而需要对不健康词语这样的敏感词进行检测。
[0003]现有技术中,在检测网络中的文本中的敏感词时,依据预先配置的敏感词,检测文本中是否出现与预先配置的敏感词相同的词语。
[0004]然而现有技术中,有一些词本身出现在文本中不是一个敏感词,但是由于作者的错误使用或者错误搭配,这些词就变成了敏感词,现有的敏感词检测方法,会对这类敏感词存在误报或者漏报现象,导致检测该类敏感词的准确率较低。

技术实现思路

[0005]本申请提供一种敏感词数据处理方法、装置和电子设备,用以解决识别敏感词的准确率较低的技术问题。
[0006]第一方面,本申请提供一种敏感词数据处理方法,包括:
[0007]获取待检测文本;
[0008]利用预设词典中的敏感词词库对所述待检测文本进行检测,确定文本敏感词,其中,所述敏感词词库包括多个疑似敏感词;
[0009]若确定所述文本敏感词对应的检测类型为上下文敏感类型,则对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,并生成敏感词提示信息。
[0010]进一步的,若确定所述文本敏感词对应的检测类型为上下文敏感类型,则对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,包括:
[0011]根据预设的敏感词与检测类型之间的对应关系,确定所述文本敏感词对应的检测类型;
[0012]若所述文本敏感词对应的检测类型为上下文敏感类型,则依据所述上下文敏感类型所对应的匹配词语,对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,其中,所述匹配词语包括上文待匹配词语和下文待匹配词语。
[0013]进一步的,依据所述上下文敏感类型所对应的匹配词语,对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,包括:
[0014]若确定所述文本敏感词与所述上下文敏感类型所对应的匹配词语相同,则确定所述文本敏感词为所述待检测文本的目标敏感词。
[0015]进一步的,利用预设词典中的敏感词词库对所述待检测文本进行检测,确定文本敏感词,包括:
[0016]若确定所述待检测文本中具有与所述敏感词词库中的疑似敏感词相同的相同词语,则确定该相同词语为文本敏感词。
[0017]进一步的,所述方法还包括:
[0018]获取多个疑似敏感词,并根据所述多个疑似敏感词建立所述敏感词词库,并建立敏感词与检测类型之间的对应关系,其中,所述检测类型具有对应的匹配词语,所述匹配词语包括上文待匹配词语和下文待匹配词语。
[0019]进一步的,所述方法还包括:
[0020]若确定所述文本敏感词对应的检测类型为任意敏感类型,则确定所述文本敏感词为所述待检测文本的目标敏感词,并生成敏感词提示信息。
[0021]进一步的,所述方法还包括:
[0022]针对所述敏感词提示信息中包括的目标敏感词,生成并发送文本修改信息。
[0023]第二方面,本申请提供一种敏感词数据处理装置,包括:
[0024]第一获取单元,用于获取待检测文本;
[0025]检测单元,用于利用预设词典中的敏感词词库对所述待检测文本进行检测,确定文本敏感词,其中,所述敏感词词库包括多个疑似敏感词;
[0026]第一处理单元,用于若确定所述文本敏感词对应的检测类型为上下文敏感类型,则对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词;
[0027]提示单元,用于生成敏感词提示信息。
[0028]进一步的,所述第一处理单元,包括:
[0029]确定模块,用于根据预设的敏感词与检测类型之间的对应关系,确定所述文本敏感词对应的检测类型;
[0030]处理模块,用于若所述文本敏感词对应的检测类型为上下文敏感类型,则依据所述上下文敏感类型所对应的匹配词语,对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,其中,所述匹配词语包括上文待匹配词语和下文待匹配词语。
[0031]进一步的,所述处理模块,具体用于:
[0032]若确定所述文本敏感词与所述上下文敏感类型所对应的匹配词语相同,则确定所述文本敏感词为所述待检测文本的目标敏感词。
[0033]进一步的,所述检测单元,具体用于:
[0034]若确定所述待检测文本中具有与所述敏感词词库中的疑似敏感词相同的相同词语,则确定该相同词语为文本敏感词。
[0035]进一步的,所述装置还包括:
[0036]第二获取单元,用于获取多个疑似敏感词;
[0037]建立单元,用于根据所述多个疑似敏感词建立所述敏感词词库,并建立敏感词与检测类型之间的对应关系,其中,所述检测类型具有对应的匹配词语,所述匹配词语包括上文待匹配词语和下文待匹配词语。
[0038]进一步的,所述装置还包括:
[0039]第二处理单元,用于若确定所述文本敏感词对应的检测类型为任意敏感类型,则确定所述文本敏感词为所述待检测文本的目标敏感词,并生成敏感词提示信息。
[0040]进一步的,所述装置还包括:
[0041]生成单元,用于针对所述敏感词提示信息中包括的目标敏感词,生成并发送文本修改信息。
[0042]第三方面,本申请提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法。
[0043]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面所述的方法。
[0044]第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。
[0045]本申请提供的敏感词数据处理方法、装置和电子设备,获取待检测文本;利用预设词典中的敏感词词库对待检测文本进行检测,确定文本敏感词,其中,敏感词词库包括多个疑似敏感词;若确定文本敏感词对应的检测类型为上下文敏感类型,则对文本敏感词进行上下文匹配处理,得到待检测文本的目标敏感词,并生成敏感词提示信息。本方案中,可以利用预设词典中的敏感词词库对待检测文本进行检测,确定文本敏感词,然后确定文本敏感词对应的检测类型,若确定文本敏感词对应的检测类型为上下文敏感类型,对文本敏感词进行上下文匹配处理,如果文本敏感词与上下文匹配成功,则确定文本敏感词为待检测文本的目标敏感词,并针对目标敏感词生成敏感词提示信息,所以,通过对待检测文本中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感词数据处理方法,其特征在于,包括:获取待检测文本;利用预设词典中的敏感词词库对所述待检测文本进行检测,确定文本敏感词,其中,所述敏感词词库包括多个疑似敏感词;若确定所述文本敏感词对应的检测类型为上下文敏感类型,则对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,并生成敏感词提示信息。2.根据权利要求1所述的方法,其特征在于,若确定所述文本敏感词对应的检测类型为上下文敏感类型,则对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,包括:根据预设的敏感词与检测类型之间的对应关系,确定所述文本敏感词对应的检测类型;若所述文本敏感词对应的检测类型为上下文敏感类型,则依据所述上下文敏感类型所对应的匹配词语,对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,其中,所述匹配词语包括上文待匹配词语和下文待匹配词语。3.根据权利要求2所述的方法,其特征在于,依据所述上下文敏感类型所对应的匹配词语,对所述文本敏感词进行上下文匹配处理,得到所述待检测文本的目标敏感词,包括:若确定所述文本敏感词与所述上下文敏感类型所对应的匹配词语相同,则确定所述文本敏感词为所述待检测文本的目标敏感词。4.根据权利要求1所述的方法,其特征在于,利用预设词典中的敏感词词库对所述待检测文本进行检测,确定文本敏感词,包括:若确定所述待检测文本中具有与所述敏感词词库中的疑似敏感词相同的相同词语,则确定该相同词语为文本敏感词。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取多个疑似敏感词,并根据所述多个疑似敏感词建立所述敏感词词库,并建立敏感词与检测类型之间的对应关系,其中,所述检测类型具有对应的匹配词语,所述匹配词语包括上文待匹配词语和下文待匹配词语。6.根据权利要求1

5任一项所述的方法,其特征在于,所述方法还包括:若确定所述文本敏感词对应的检测类型为任意敏感类型,则确定所述文本敏感词为所述待检测文本的目标敏感词,并生成敏感词提示信息。7.根据权利要求1

5任一项所述的方法,其特征在于,所述方法还包括:针对所述敏感词提示信息中包括的目标敏感词,生成并发送文本修改信息。8.一种敏感词数据处理装置,其特征在于,包括:第一获取单元,用于获取待检测文本;检测单元,用于利用预设词典中的敏感词词库对所述待检测文本进行检测,确定文本敏感词,其中,所述敏感词词库包括多个疑似敏感词;第一处理单元,用于若确定所述文本敏感词对应...

【专利技术属性】
技术研发人员:崔雨微王九硕
申请(专利权)人:北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1