System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 敏感词检测方法、装置、电子设备和计算机可读存储介质制造方法及图纸_技高网

敏感词检测方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:40806269 阅读:4 留言:0更新日期:2024-03-28 19:30
本发明专利技术实施例提供了一种敏感词检测方法、装置、电子设备和计算机可读存储介质。其中,该方法包括:获取语音数据;将语音数据转化为文本数据;基于预设的分词算法将文本数据分词,得到分词后的文本数据;将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;基于预设的敏感词库抽取目标数据中的敏感词;基于敏感词发送警报信息;通过将语音数据转化为文本数据,进一步做分词和预处理后,再进行敏感词检测,减少了敏感词检测的工作量,从而降低了检测时间,提高了检测的时效性,提升了用户体验。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其是涉及一种敏感词检测方法、装置、电子设备和计算机可读存储介质


技术介绍

1、在信息爆炸时代,充斥着大量的敏感信息,会产生很多负面影响。为了应对这一挑战,就需要能够及时发现并处理这些问题。

2、现有敏感词检测技术中,通常是对语音数据转换的文本数据直接进行检测,但是工作量比较大,检测时间较长,检测时效性大打折扣,影响用户体验。


技术实现思路

1、本专利技术的目的在于提供一种敏感词检测方法、装置、电子设备和计算机可读存储介质,通过将语音数据转化为文本数据,进一步做分词和预处理后,再进行敏感词检测,减少了敏感词检测的工作量,从而降低了检测时间,提高了检测的时效性,提升了用户体验。

2、第一方面,本专利技术实施例提供了一种敏感词检测方法,包括:获取语音数据;将语音数据转化为文本数据;基于预设的分词算法将文本数据分词,得到分词后的文本数据;将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;基于预设的敏感词库抽取目标数据中的敏感词;基于敏感词发送警报信息。

3、在本专利技术一些较佳的实施例中,停用词表过滤处理的步骤包括:基于预设的停用词表过滤分词后的文本数据,得到第一文本数据;将第一文本数据确定为目标数据。

4、在本专利技术一些较佳的实施例中,提取关键词处理的步骤包括:基于预设的关键词提取模型提取分词后的文本数据中的关键词,得到第二文本数据;将第二文本数据确定为目标数据。

5、在本专利技术一些较佳的实施例中,敏感词库内包括多个敏感词组,每个敏感词组中均包括多个敏感词,敏感词组均对应唯一等级标识;警报信息包括多条预设的警报文本;警报文本与等级标识一一对应;基于敏感词发送警报信息的步骤包括:确定敏感词对应的等级标识;输出等级标识对应的警报文本。

6、在本专利技术一些较佳的实施例中,确定敏感词对应的等级标识的步骤之后,方法还包括:统计等级标识对应的敏感词的数量;如果敏感词的数量大于预设的数量阈值,输出等级标识对应的警报文本。

7、在本专利技术一些较佳的实施例中,方法还包括:获取新的敏感词;将新的敏感词与敏感词库中的敏感词比较,剔除相同的内容;将剔除相同的内容之后的新的敏感词剩余的内容添加到敏感词库中,并为新的敏感词剩余的内容赋予等级标识。

8、第二方面,本专利技术实施例提供了一种敏感词检测转置,包括:数据获取模块,用于获取语音数据;文本转化模块,用于将语音数据转化为文本数据;文本分词模块,用于基于预设的分词算法将文本数据分词,得到分词后的文本数据;预处理模块,用于将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;敏感词提取模块,用于基于预设的敏感词库抽取目标数据中的敏感词;警报模块,用于基于敏感词发送警报信息。

9、在本专利技术一些较佳的实施例中,预处理模块,用于:基于预设的停用词表过滤分词后的文本数据,得到第一文本数据;将第一文本数据确定为目标数据。

10、第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述的敏感词检测方法。

11、第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述的敏感词检测方法。

12、本专利技术实施例提供了一种敏感词检测方法、装置、电子设备和计算机可读存储介质。该方法包括:获取语音数据;将语音数据转化为文本数据;基于预设的分词算法将文本数据分词,得到分词后的文本数据;将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;基于预设的敏感词库抽取目标数据中的敏感词;基于敏感词发送警报信息;通过将语音数据转化为文本数据,进一步做分词和预处理后,再进行敏感词检测,减少了敏感词检测的工作量,从而降低了检测时间,提高了检测的时效性,提升了用户体验。

本文档来自技高网...

【技术保护点】

1.一种敏感词检测方法,其特征在于,包括:

2.根据权利要求1所述的敏感词检测方法,其特征在于,所述停用词表过滤处理的步骤包括:

3.根据权利要求1所述的敏感词检测方法,其特征在于,所述提取关键词处理的步骤包括:

4.根据权利要求1所述的敏感词检测方法,其特征在于,所述敏感词库内包括多个敏感词组,每个所述敏感词组中均包括多个所述敏感词,所述敏感词组均对应唯一等级标识;所述警报信息包括多条预设的警报文本;所述警报文本与所述等级标识一一对应;基于所述敏感词发送警报信息的步骤包括:

5.根据权利要求4所述的敏感词检测方法,其特征在于,确定所述敏感词对应的等级标识的步骤之后,所述方法还包括:

6.根据权利要求5所述的敏感词检测方法,其特征在于,所述方法还包括:

7.一种敏感词检测转置,其特征在于,包括:

8.根据权利要求7所述的敏感词检测方法,其特征在于,预处理模块,用于:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述权利要求1至6任一项所述的敏感词检测方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至6任一项所述的敏感词检测方法。

...

【技术特征摘要】

1.一种敏感词检测方法,其特征在于,包括:

2.根据权利要求1所述的敏感词检测方法,其特征在于,所述停用词表过滤处理的步骤包括:

3.根据权利要求1所述的敏感词检测方法,其特征在于,所述提取关键词处理的步骤包括:

4.根据权利要求1所述的敏感词检测方法,其特征在于,所述敏感词库内包括多个敏感词组,每个所述敏感词组中均包括多个所述敏感词,所述敏感词组均对应唯一等级标识;所述警报信息包括多条预设的警报文本;所述警报文本与所述等级标识一一对应;基于所述敏感词发送警报信息的步骤包括:

5.根据权利要求4所述的敏感词检测方法,其特征在于,确定所述敏感词对应的等级标识的步骤之后,所述方法还包括:

【专利技术属性】
技术研发人员:史会贤
申请(专利权)人:深圳市易甲文技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1