一种恶意文本的检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24168922 阅读:42 留言:0更新日期:2020-05-16 02:19
本公开提供一种恶意文本的检测方法、装置、电子设备及存储介质,该方法包括:将待检测文本进行归一化处理,得到归一化后的待检测文本;至少根据归一化后的待检测文本,确定恶意文本库中恶意文本与待检测文本的最高相似度,其中,最高相似度,至少为归一化后的待检测文本和恶意文本库中各恶意文本的相似度中最高的相似度;若最高相似度大于预设相似度阈值,则确定待检测文本为恶意文本。相对于现有技术仅仅基于待检测文本进行关键词库匹配的方式而言,提高了恶意文本检测的准确率。

A malicious text detection method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种恶意文本的检测方法、装置、电子设备及存储介质
本公开涉及计算机
,尤其涉及一种恶意文本的检测方法、装置、电子设备及存储介质。
技术介绍
相关技术中,为了尽可能地阻止不良信息在互联网中的传播,可以通过关键词匹配的方法对恶意文本进行检测。具体来说,会通过用户举报和人工发现的方式,将恶意文本中的某些词选为关键词,然后添加到关键词库,之后通过将待检测文本直接作为待搜索关键词,在关键词库中搜索该待搜关键词,若在关键词库中命中该待搜索关键词,即可确定待检测文本为恶意文本。然而,恶意文本发布方只需对恶意文本中的词语进行微调,即可避免与关键词库中的关键词相同或相似,导致无法检测出恶意文本,即相关技术中的恶意文本检测方法的准确率较低。
技术实现思路
本公开提供一种恶意文本的检测方法、装置、电子设备及存储介质,以至少解决相关技术中恶意文本的检测方法的准确率较低的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种恶意文本的检测方法,包括:将待检测文本进行归一化处理,得到归一化后的待检测文本;至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,其中,所述最高相似度,至少为所述归一化后的待检测文本和所述恶意文本库中各恶意文本的相似度中最高的相似度;若所述最高相似度大于预设相似度阈值,则确定所述待检测文本为恶意文本。在一种可选的实施方式中,所述至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,包括:对所述归一化后的待检测文本进行类型转换,得到语义与所述待检测文本相同、且表现形式与所述待检测文本不同的转换后的文本;分别计算所述归一化后的待检测文本与各恶意文本的第一相似度、以及计算所述转换后的文本与各恶意文本的第二相似度;从所述第一相似度集合和所述第二相似度集合中确定出最高相似度,作为所述恶意文本库中恶意文本与所述待检测文本的最高相似度。在一种可选的实施方式中,所述若所述最高相似度大于预设相似度阈值,则确定所述待检测文本为恶意文本,包括:若所述最高相似度中的至少一个大于预设相似度阈值,则确定所述待检测文本为恶意文本。在一种可选的实施方式中,所述至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,包括:至少根据所述归一化后的待检测文本的文本向量与所述恶意文本库中的各恶意文本的文本向量,确定各恶意文本与所述待检测文本的相似度,其中,文本的文本向量通过预先训练得到的模型而生成;从各恶意文本与所述待检测文本的文本向量的相似度中,确定出最高的相似度。在一种可选的实施方式中,所述文本的文本向量通过预先训练得到的模型通过如下方式而生成:通过预先训练得到的模型,获取所述文本包含的多个词语的词向量;计算所述多个词语的词向量的平均值,得到所述文本的文本向量;或者,将所述文本输入预先训练得到的模型;从所述预先训练得到的模型的隐藏层获取与所述文本对应的文本向量。在一种可选的实施方式中,在所述至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度之前,还包括:基于预先获取的恶意文本,生成与所述恶意文本对应的对抗文本;根据所述恶意文本以及所述对抗文本,构建恶意文本库。根据本公开实施例的第二方面,提供一种恶意文本检测装置,包括:归一化处理模块,被配置为执行将待检测文本进行归一化处理,得到归一化后的待检测文本;相似度确定模块,被配置为执行至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,其中,所述最高相似度,至少为所述归一化后的待检测文本和所述恶意文本库中各恶意文本的相似度中最高的相似度;恶意文本确定模块,被配置为执行若所述最高相似度大于预设相似度阈值,则确定所述待检测文本为恶意文本。在一种可选的实施方式中,所述相似度确定模块,包括:转换单元,被配置为执行对所述归一化后的待检测文本进行类型转换,得到语义与所述待检测文本相同、且表现形式与所述待检测文本不同的转换后的文本;计算单元,被配置为执行分别计算所述归一化后的待检测文本与各恶意文本的第一相似度、以及计算所述转换后的文本与各恶意文本的第二相似度;确定单元,被配置为执行从所述第一相似度集合和所述第二相似度集合中确定出最高相似度,作为所述恶意文本库中恶意文本与所述待检测文本的最高相似度。在一种可选的实施方式中,所述恶意文本确定模块,包括:若所述最高相似度中的至少一个大于预设相似度阈值,则确定所述待检测文本为恶意文本。在一种可选的实施方式中,所述相似度确定模块,包括:文本相似度确定单元,被配置为执行至少根据所述归一化后的待检测文本的文本向量与所述恶意文本库中的各恶意文本的文本向量,确定各恶意文本与所述待检测文本的相似度,其中,文本的文本向量通过预先训练得到的模型而生成;最高相似度确定单元,被配置为执行从各恶意文本与所述待检测文本的文本向量的相似度中,确定出最高的相似度。在一种可选的实施方式中,所述检测装置,还包括:第一获取模块,被配置为执行通过预先训练得到的模型,获取所述文本包含的多个词语的词向量;平均值计算模块,被配置为执行计算所述多个词语的词向量的平均值,得到所述文本的文本向量;或者,输入模块,被配置为执行将所述文本输入预先训练得到的模型;第二获取模块,被配置为执行从所述预先训练得到的模型的隐藏层获取与所述文本对应的文本向量。在一种可选的实施方式中,所述检测装置,还包括:生成模块,被配置为执行基于预先获取的恶意文本,生成与所述恶意文本对应的对抗文本;构建模块,被配置为执行根据所述恶意文本以及所述对抗文本,构建恶意文本库。根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述第一方面中任一项恶意文本的检测方法。根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中任一项恶意文本的检测方法。根据本公开实施例的第五方面,提供一种计算机程序产品,当其在电子设备上运行时,使得恶意文本检测电子设备执行:上述第一方面中任一项恶意文本的检测方法的方法步骤。本公开的实施例提供的技术方案至少带来以下有益效果:通过本公开实施例提供的方法,可以将待检测文本进行归一化处理,得到多个与待检测文本表现形式不同,但语义相同的文本,然后根据归一化后的待检测文本和恶意文本库中各恶意文本的语义相似度中最高的相似度与预设相似度阈值,确定待检测文本是否为恶意文本,这样,即使恶意文本发布方对恶意文本中的本文档来自技高网...

【技术保护点】
1.一种恶意文本的检测方法,其特征在于,包括:/n将待检测文本进行归一化处理,得到归一化后的待检测文本;/n至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,其中,所述最高相似度,至少为所述归一化后的待检测文本和所述恶意文本库中各恶意文本的相似度中最高的相似度;/n若所述最高相似度大于预设相似度阈值,则确定所述待检测文本为恶意文本。/n

【技术特征摘要】
1.一种恶意文本的检测方法,其特征在于,包括:
将待检测文本进行归一化处理,得到归一化后的待检测文本;
至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,其中,所述最高相似度,至少为所述归一化后的待检测文本和所述恶意文本库中各恶意文本的相似度中最高的相似度;
若所述最高相似度大于预设相似度阈值,则确定所述待检测文本为恶意文本。


2.根据权利要求1所述的检测方法,其特征在于,至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,包括:
对所述归一化后的待检测文本进行类型转换,得到语义与所述待检测文本相同、且表现形式与所述待检测文本不同的转换后的文本;
分别计算所述归一化后的待检测文本与各恶意文本的第一相似度集合、以及计算所述转换后的文本与各恶意文本的第二相似度集合;
从所述第一相似度集合和所述第二相似度集合中确定出最高相似度,作为所述恶意文本库中恶意文本与所述待检测文本的最高相似度。


3.根据权利要求2所述的检测方法,其特征在于,若所述最高相似度大于预设相似度阈值,则确定所述待检测文本为恶意文本,包括:
若所述最高相似度中的至少一个大于预设相似度阈值,则确定所述待检测文本为恶意文本。


4.根据权利要求1或2所述的检测方法,其特征在于,至少根据所述归一化后的待检测文本,确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度,包括:
至少根据所述归一化后的待检测文本的文本向量与所述恶意文本库中的各恶意文本的文本向量,确定各恶意文本与所述待检测文本的相似度,其中,文本的文本向量通过预先训练得到的模型而生成;
从各恶意文本与所述待检测文本的文本向量的相似度中,确定出最高的相似度。


5.根据权利要求4所述的检测方法,其特征在于,文本的文本向量通过预先训练得到的模型通过如下方式而生成:
通过预先训练得到的模型,获取所述文本包含的多个词语的词向量;
计算所述多个词语...

【专利技术属性】
技术研发人员:揭文君吴迪李泽
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1