敏感词检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33287391 阅读:12 留言:0更新日期:2022-04-30 23:57
本申请提供一种敏感词检测方法、装置、电子设备及存储介质,包括:在待检测文本包括预设敏感词库中敏感词的情况下,获取待检测文本中的第一敏感词;根据待检测文本的文本向量与第一敏感词所对应的第一样本向量确定第一语义相关度;根据待检测文本的文本向量与第一敏感词所对应的第二样本向量确定第二语义相关度;若第一语义相关度大于第二语义相关度,则将第一敏感词确定为与预设场景相关联的目标敏感词;第一样本向量为包含有第一敏感词的第一样本文本的平均向量,第二样本向量为包含有第一敏感词的第二样本文本的平均向量。本申请提高了与预设场景相关联的敏感词的检测准确率。率。率。

【技术实现步骤摘要】
敏感词检测方法、装置、电子设备及存储介质


[0001]本申请属于文本识别
,尤其涉及一种敏感词检测方法、装置、电子设备及存储介质。

技术介绍

[0002]敏感词识别是基于自然语言理解、深度学习等技术,识别文本内容中辱骂类、威胁类、态度类等应用场景中的敏感词。敏感词识别的难点主要有:其一,词语的歧义问题,即一个词语的某个语义是违规的,但其他语义或许是正常的;其二,识别边界问题,识别的边界问题也对模型指标有着较大影响;其三,词表质量问题,需要根据业务场景创建相关的词表,词表的质量也决定着检测结果的优劣。
[0003]相关技术中,通常是语言学专家手工构造规则模板,并通过统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等方式选用特征,以模板匹配的方式识别关键词,但该类方式多依赖于知识库和词典的建立,需要建立不同领域知识库作为辅助来提高识别能力,且存在不能消除词语的歧义问题。

技术实现思路

[0004]本申请实施例的目的是提供一种敏感词检测方法、装置、电子设备及存储介质,以解决相关技术中不能对待检测文本中的敏感词的语义进行有效判断,检测准确率低的问题。
[0005]第一方面,本申请实施例提供了一种敏感词检测方法,包括:
[0006]在待检测文本包括预设敏感词库中的敏感词的情况下,获取所述待检测文本中的第一敏感词,所述第一敏感词为所述预设敏感词库中的敏感词;
[0007]根据所述待检测文本的文本向量与所述第一敏感词所对应的第一样本向量确定第一语义相关度;
[0008]根据所述待检测文本的文本向量与所述第一敏感词所对应的第二样本向量确定第二语义相关度;
[0009]若所述第一语义相关度大于所述第二语义相关度,则将所述第一敏感词确定为与预设场景相关联的目标敏感词;
[0010]其中,所述第一样本向量为包含有所述第一敏感词的第一样本文本的平均向量,所述第二样本向量为包含有所述第一敏感词的第二样本文本的平均向量。
[0011]第二方面,本申请实施例提供了一种敏感词检测装置,包括:
[0012]获取模块,用于在待检测文本包括预设敏感词库中的敏感词的情况下,获取所述待检测文本中的第一敏感词,所述第一敏感词为所述预设敏感词库中的敏感词;
[0013]计算模块,用于根据所述待检测文本的文本向量与所述第一敏感词所对应的第一样本向量确定第一语义相关度,并根据所述待检测文本的文本向量与所述第一敏感词所对应的第二样本向量确定第二语义相关度;
[0014]确定模块,用于若所述第一语义相关度大于所述第二语义相关度,则将所述第一敏感词确定为与预设场景相关联的目标敏感词;
[0015]其中,所述第一样本向量为包含有所述第一敏感词的第一样本文本的平均向量,所述第二样本向量为包含有所述第一敏感词的第二样本文本的平均向量。
[0016]第三方面,本申请实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0017]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0018]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0019]在本申请实施例中,通过在待检测文本包括预设敏感词库中敏感词的情况下,获取待检测文本中的第一敏感词,并根据待检测文本的文本向量与第一敏感词所对应的第一样本向量确定第一语义相关度,并根据待检测文本的文本向量与第一敏感词所对应的第二样本向量确定第二语义相关度,若第一语义相关度大于第二语义相关度,则将第一敏感词确定为与预设场景相关联的目标敏感词,第一样本向量为包含有第一敏感词的第一样本文本的平均向量,第二样本向量为包含有第一敏感词的第二样本文本的平均向量,使得能够通过样本文本的语义对待检测文本的语义进行有效判断,进而使得能够通过语义的判断结果检测待检测文本中敏感词是否与预设场景相关联,提高了与预设场景相关联的敏感词的检测准确率,且使得能够通过第一敏感词是否为与预设场景相关联的目标敏感词的检测结果,监控用户在该预设场景下是否说了与该场景无关的语句,实现了对用户在工作场景下的对话监控。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本申请实施例中敏感词检测方法的流程示意图;
[0022]图2为本申请实施例中获取第一样本向量和第二样本向量的流程示意图;
[0023]图3为本申请实施例中另一敏感词检测方法的流程示意图;
[0024]图4为本申请实施例中敏感词检测装置的模块组成示意图;
[0025]图5为本申请实施例中电子设备的结构示意图。
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0027]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
[0028]此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0029]此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0030]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0031]在相关技术中,在进行敏感词检测时,基于规则的解决方案多采用语言学专家手工构造的规则模板的方式,该方式大多依赖于知识库和词典的建立,存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感词检测方法,其特征在于,包括:在待检测文本包括预设敏感词库中敏感词的情况下,获取所述待检测文本中的第一敏感词,所述第一敏感词为所述预设敏感词库中的敏感词;根据所述待检测文本的文本向量与所述第一敏感词所对应的第一样本向量确定第一语义相关度;根据所述待检测文本的文本向量与所述第一敏感词所对应的第二样本向量确定第二语义相关度;若所述第一语义相关度大于所述第二语义相关度,则将所述第一敏感词确定为与预设场景相关联的目标敏感词;其中,所述第一样本向量为包含所述第一敏感词的第一样本文本的平均向量,所述第二样本向量为包含所述第一敏感词的第二样本文本的平均向量。2.根据权利要求1所述的敏感词检测方法,其特征在于,所述根据所述待检测文本的文本向量与所述第一敏感词所对应的第一样本向量确定第一语义相关度之前,还包括:获取样本文本集,其中所述样本文本集包括样本文本和所述样本文本对应的样本标签,所述样本标签指示样本文本的文本语义与所述预设场景相关联或无关联;根据所述第一敏感词从所述样本文本集中确定多个所述第一样本文本和多个所述第二样本文本;计算每个所述第一样本文本的第一文本向量以及每个所述第二样本文本的第二文本向量;计算所有所述第一文本向量的向量平均值,得到所述第一样本向量,及计算所有所述第二文本向量的向量平均值,得到所述第二样本向量。3.根据权利要求2所述的敏感词检测方法,其特征在于,所述根据所述第一敏感词从所述样本文本集中确定多个所述第一样本文本和多个所述第二样本文本,包括:从所述样本文本集中筛选得到包含所述第一敏感词的目标样本文本;根据所述目标样本文本所对应的样本标签,将所述目标样本文本中与所述预设场景相关联的目标样本文本确定为所述第一样本文本,将所述目标样本文本中与所述预设场景无关联的目标样本文本确定为第二样本文本。4.根据权利要求2所述的敏感词检测方法,其特征在于,所述计算每个所述第一样本文本的第一文本向量,包括:针对任意一个第一样本文本,通过下述公式计算所述第一样本文本中每个分词的权重,并根据每个分词的权重计算所述第一样本文本的第一文本向量;其中,C
i
表示所述第一样本文本中第i个分词的权重,LOC
i
表示第i个分词在所述第一样本文本中所有分词中的位置,LOC
keyword
表示所述第一敏感词在所述第一样本文本中所有分词中的位置,NUM
i
...

【专利技术属性】
技术研发人员:李长林权佳成曹磊
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1