System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 敏感词汇的检测方法及装置、电子设备、存储介质制造方法及图纸_技高网

敏感词汇的检测方法及装置、电子设备、存储介质制造方法及图纸

技术编号:40361087 阅读:7 留言:0更新日期:2024-02-09 14:48
本发明专利技术公开了一种敏感词汇的检测方法及装置、电子设备、存储介质,涉及人工智能技术领域或其他相关领域,其中,该方法包括:接收文本检测指令和待检测文本;将待检测文本映射至几何空间,并在几何空间中对该待检测文本中所包含的关键词进行特征运算,得到特征向量集合;响应文本检测指令,将特征向量集合输入至预设神经网络模型,输出模型运算结果,其中,模型运算结果用于指示特征向量属于预设向量类型的概率值,预设向量类型包括:敏感类或者非敏感类;基于模型运算结果生成检测结果,检测结果用于指示该待检测文本中是否含有敏感词汇。本发明专利技术解决了相关技术中敏感词检测算法中线性匹配经常出现误判情况的技术问题。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体而言,涉及一种敏感词汇的检测方法及装置、电子设备、存储介质


技术介绍

1、随着近年来网络信息的爆炸式增长,以及互联网的开放性和匿名性,网站禁用词/敏感词的监管和审查难度日益增大。

2、由于汉语言的特性,对网站显示的文字信息进行字符级别粗糙匹配的方法效果不佳,容易出现禁用词/敏感词误判的情况,对误判的词汇进行粗糙的线性遮蔽会导致如下现象:1,在某些场景中影响网络用户的正常沟通,例如,假设字符“a”在词语“ab”中出现或者单字“a”出现时均表现为网站禁止传播的含义,但在作为词语“ca”出现时并不属于网站禁用,若粗糙使用“*”屏蔽字符“a”,将会导致正常词“ca”在所有情境中都表达为“c*”,造成沟通以及阅读的障碍;2,对禁用词进行批评或持否定立场的语句进行粗糙屏蔽导致无效表达,例如,在语句“禁止ab”中,若粗糙屏蔽为“禁止**”,不但起不到正确引导网络信息传播的作用,还会使语句表达本身完全丧失意义。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本专利技术实施例提供了一种敏感词汇的检测方法及装置、电子设备、存储介质,以至少解决相关技术中敏感词检测算法中线性匹配经常出现误判情况的技术问题。

2、根据本专利技术实施例的一个方面,提供了一种敏感词汇的检测方法,包括:接收文本检测指令和待检测文本,其中,所述文本检测指令用于使预设神经网络模型对所述待检测文本进行敏感词汇检测;将所述待检测文本映射至几何空间,并在所述几何空间中对该待检测文本中所包含的关键词进行特征运算,得到与所述待检测文本对应的特征向量集合;响应所述文本检测指令,将所述特征向量集合输入至所述预设神经网络模型,输出模型运算结果,其中,所述预设神经网络模型用于依据预置的敏感词汇规则和预设向量类型对所述特征向量集合中的所有特征向量进行概率运算,所述模型运算结果用于指示所述特征向量属于所述预设向量类型的概率值,所述预设向量类型包括:敏感类或者非敏感类;基于所述模型运算结果生成检测结果,其中,所述检测结果用于指示该待检测文本中是否含有敏感词汇。

3、可选地,将所述待检测文本映射至几何空间,并在所述几何空间中对该待检测文本中所包含的关键词进行特征运算,得到与所述待检测文本对应的特征向量集合的步骤,包括:使用预设分词模型对所述待检测文本进行分词,得到分词集合,其中,所述分词集合中包含n个所述关键词,n为正整数;基于所述分词集合建立所述几何空间,其中,所述分词集合中的所有所述关键词均定义为该几何空间中的点;依据所述几何空间对所述分词集合中的所有所述关键词进行特征关系建模,得到词嵌入向量集合,其中,所述词嵌入向量集合中包含n个词嵌入向量,每个所述词嵌入向量与一个所述关键词一一对应;基于注意力机制对所述词嵌入向量集合中的所有所述词嵌入向量进行加权运算,得到所述特征向量集合,其中,所述特征向量集合中包含n个所述特征向量。

4、可选地,在所述几何空间中对所述分词集合中的所有所述关键词进行特征关系建模,得到词嵌入向量集合的步骤,包括:在所述几何空间中对所有所述关键词进行相似度计算,得到相似度计算结果,并基于所述相似度计算结果构建相似度矩阵,其中,每个所述相似度计算结果用于表征两个所述关键词之间的共现概率;依据所述相似度矩阵和预设相似度阈值构建邻接矩阵,其中,所述邻接矩阵中邻接元素包括:第一数值和第二数值,所述第一数值用于表征两个所述关键词所定义的点在所述几何空间中不具备连接关系,所述第二数值用于表征两个所述关键词所定义的点在所述几何空间中具备连接关系;对所述邻接矩阵进行维度转换,得到三维邻接矩阵,并基于所述三维邻接矩阵将所有所述关键词映射至三维空间,得到每个关键词对应的所述词嵌入向量;整合所有所述词嵌入向量,得到所述词嵌入向量集合。

5、可选地,在使用预设分词模型对所述待检测文本进行分词,得到分词集合之前,还包括:对所述待检测文本进行预处理操作,其中,所述预处理操作包括下述至少之一:去除标点符号、统一大小写、去除停用词、数字替换、字符编码、词干提取、词形还原以及中文拼音转换。

6、可选地,所述预设神经网络模型至少包括以下组成部分:输入层,用于接收所述特征向量集合中的所有所述特征向量;全连接层,与所述输入层连接,用于预置所述敏感词汇规则和预设向量类型,并依据所述敏感词汇规则对所有所述特征向量进行概率运算,得到所述模型运算结果;输出层,与所述全连接层连接,用于基于所述模型运算结果生成所述检测结果,并输出该检测结果。

7、可选地,所述全连接层中至少设置:m个规则节点,其中,每个所述规则节点中预置一条所述敏感词汇规则,所述规则节点用于对每个所述特征向量与该敏感词汇规则进行匹配,得到第一匹配结果,所述第一匹配结果中包含该特征向量命中的所有所述规则节点,m为正整数;中间节点,用于根据所述第一匹配结果,将所述特征向量传送至该特征向量命中的所述规则节点对应的敏感词节点;每个所述规则节点对应的p个敏感词节点,其中,每个所述敏感词节点中预置一个敏感词,该敏感词节点用于依据该敏感词对接收到的所述特征向量进行概率运算,p为正整数。

8、可选地,在基于所述模型运算结果生成检测结果之后,还包括:接收新增操作指令和新增内容,其中,所述新增操作指令用于使所述预设神经网络模型将所述新增内容添加至所述敏感词汇规则;响应所述新增操作指令,将所述新增内容输入至所述预设神经网络模型,并根据所述新增内容建立新增敏感词节点;通过所述预设神经网络模型对所述新增内容与所有所述敏感词汇规则进行匹配,得到第二匹配结果,其中,所述第二匹配结果用于指示与所述新增内容匹配度最高的所述敏感词汇规则对应的所述规则节点;建立所述第二匹配结果指示的所述规则节点与所述新增敏感词节点之间的映射关系;在所述第二匹配结果指示的所述规则节点连接有所述中间节点的情况下,定位该中间节点,并将所述映射关系存储至所述中间节点。

9、根据本专利技术实施例的另一方面,还提供了一种敏感词汇的检测装置,包括:接收单元,用于接收文本检测指令和待检测文本,其中,所述文本检测指令用于使预设神经网络模型对所述待检测文本进行敏感词汇检测;运算单元,用于将所述待检测文本映射至几何空间,并在所述几何空间中对该待检测文本中所包含的关键词进行特征运算,得到与所述待检测文本对应的特征向量集合;输入单元,用于响应所述文本检测指令,将所述特征向量集合输入至所述预设神经网络模型,输出模型运算结果,其中,所述预设神经网络模型用于依据预置的敏感词汇规则和预设向量类型对所述特征向量集合中的所有特征向量进行概率运算,所述模型运算结果用于指示所述特征向量属于所述预设向量类型的概率值,所述预设向量类型包括:敏感类或者非敏感类;生成单元,用于基于所述模型运算结果生成检测结果,其中,所述检测结果用于指示该待检测文本中是否含有敏感词汇。

10、可选地,所述运算单元包括:分词模块,用于使用预设分词模型对所述待检测文本进行分词,得到分词集合,其中,所述分词集本文档来自技高网...

【技术保护点】

1.一种敏感词汇的检测方法,其特征在于,包括:

2.根据权利要求1所述的敏感词汇的检测方法,其特征在于,将所述待检测文本映射至几何空间,并在所述几何空间中对所述待检测文本中所包含的关键词进行特征运算,得到与所述待检测文本对应的特征向量集合的步骤,包括:

3.根据权利要求2所述的敏感词汇的检测方法,其特征在于,在所述几何空间中对所述分词集合中的所有所述关键词进行特征关系建模,得到词嵌入向量集合的步骤,包括:

4.根据权利要求2所述的敏感词汇的检测方法,其特征在于,在使用预设分词模型对所述待检测文本进行分词,得到分词集合之前,还包括:

5.根据权利要求1所述的敏感词汇的检测方法,其特征在于,所述预设神经网络模型至少包括以下组成部分:

6.根据权利要求5所述的敏感词汇的检测方法,其特征在于,所述全连接层中至少设置:

7.根据权利要求6所述的敏感词汇的检测方法,其特征在于,在基于所述模型运算结果生成检测结果之后,还包括:

8.一种敏感词汇的检测装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的敏感词汇的检测方法。

10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的敏感词汇的检测方法。

...

【技术特征摘要】

1.一种敏感词汇的检测方法,其特征在于,包括:

2.根据权利要求1所述的敏感词汇的检测方法,其特征在于,将所述待检测文本映射至几何空间,并在所述几何空间中对所述待检测文本中所包含的关键词进行特征运算,得到与所述待检测文本对应的特征向量集合的步骤,包括:

3.根据权利要求2所述的敏感词汇的检测方法,其特征在于,在所述几何空间中对所述分词集合中的所有所述关键词进行特征关系建模,得到词嵌入向量集合的步骤,包括:

4.根据权利要求2所述的敏感词汇的检测方法,其特征在于,在使用预设分词模型对所述待检测文本进行分词,得到分词集合之前,还包括:

5.根据权利要求1所述的敏感词汇的检测方法,其特征在于,所述预设神经网络模型至少包括以下组成部分:

6.根据权...

【专利技术属性】
技术研发人员:董勇圣
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1