System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本检测方法、装置、设备和存储介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>鹏城实验室专利>正文

文本检测方法、装置、设备和存储介质制造方法及图纸

技术编号:39931020 阅读:12 留言:0更新日期:2024-01-08 21:49
本申请实施例提供文本检测方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:利用预设检测词表初步将包含敏感词的检测文本筛选出来,再利用多个安全检测模型对初筛后的检测文本更细粒度的合规性判断,得到表征合规性的检测得分,这里检测得分越高表征检测文段的安全性越高。在后续检测过程中,本实施例并不仅简单地将所有检测文段的检测得分通过作为合规性结果,而是预留一定的冗余,虽然一些检测文段的检测得分没有通过,但是其数量较少,则也可以认为其合规。通过多阶段检测,从粗粒度到细粒度进行合规判断,能够在整体上降低检测文本被误检的概率。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及文本检测方法、装置、设备和存储介质


技术介绍

1、文本合规性检测是对文本内容进行分析和筛查,以确保其满足合规要求。这里的文本内容适用范围比较广泛,例如社交媒体中的评论内容、大语言模型的生成内容、内容平台的发布内容等。以大语言模型的生成内容为例,大语言模型的核心思想是基于上下文的语言生成,能够通过学习大量的文本数据,理解句子的结构、语法规则和语义关系,从而根据给定的上下文信息,生成连贯且符合语言规则的文生成内容,并展示给用户。

2、相关技术中,对文本内容的合规性检查主要是基于敏感词库比对的方式,如果文本内容中包含敏感词,则进行敏感词替换。但是这种合规检测方式很容易造成误检。


技术实现思路

1、本申请实施例的主要目的在于提出文本检测方法、装置、设备和存储介质,降低生成文本的误检概率。

2、为实现上述目的,本申请实施例的第一方面提出了一种文本检测方法,包括:

3、获取检测文本,并基于预设检测词表,在所述检测文本中查找检测词,得到初始检测结果;所述预设检测词表包括多个所述检测词;

4、确定所述初始检测结果指示所述检测文本中包括至少一个所述检测词,则将所述检测文本分割成多个检测文段;

5、将所述检测文段输入多个安全检测模型进行安全检测,得到所述检测文段的检测得分;

6、将所述检测得分小于第一得分阈值的所述检测文段作为决策文段,如果所述决策文段的数量小于决策数量阈值,确定所述检测文本的检测结果为检测通过。

7、在一些实施例,所述如果所述决策文段的数量小于决策数量阈值,确定所述检测文本的检测结果为检测通过,包括:

8、如果所述决策文段的数量小于决策数量阈值,且所述数量不为0,则获取所述决策文段的所述检测得分作为决策得分;

9、当所述决策得分大于第二得分阈值,且对应的所述决策文段的文本长度在所述检测文本的总文本长度中占比小于决策长度阈值,则确定所述检测文本的检测结果为检测通过。

10、在一些实施例,所述初始检测结果包括第一检测结果,所述第一检测结果用于指示所述检测文本中包括至少一个所述检测词;所述在所述检测文本中查找检测词,得到初始检测结果,包括:

11、将所述检测文本进行分词,得到待测分词序列;所述待测分词序列中包括多个待测词;

12、在所述待测分词序列中匹配所述预设检测词表中每个所述检测词;

13、若匹配到至少一个所述检测词,确定所述初始检测结果为所述第一检测结果。

14、在一些实施例,所述在所述检测文本中查找检测词,得到初始检测结果,还包括:

15、若未匹配到所述检测词,则获取所述待测词与所述预设检测词表中所述检测词的相似度值,并选取所述相似度值的最大值;

16、如果所述最大值大于或等于相似度阈值,确定所述检测文本中包括所述最大值对应的所述检测词,确定所述初始检测结果为所述第一检测结果。

17、在一些实施例,所述获取所述待测词与所述预设检测词表中所述检测词的相似度值,包括:

18、基于每个所述待测词的词性,将第一词性的所述待测词作为目标待测词,并计算所述目标待测词的待测嵌入向量;

19、获取所述预设检测词表中每个所述检测词的检测嵌入向量;

20、根据所述待测嵌入向量和所述检测嵌入向量的相似度,得到所述相似度值。

21、在一些实施例,所述获取所述预设检测词表中每个所述检测词的检测嵌入向量,包括:

22、对所述预设检测词表中所述检测词进行第一词向量生成操作,得到第一词向量,以及对所述预设检测词表中所述检测词进行第二词向量生成操作,得到第二词向量;

23、对所述第一词向量和所述第二词向量按位进行加权平均,得到所述检测嵌入向量。

24、在一些实施例,所述将所述检测文段输入多个安全检测模型进行安全检测,得到所述检测文段的检测得分,包括:

25、获取每个所述安全检测模型对所述检测文段进行安全检测得到的安全检测概率向量;

26、根据所述检测文段中包含的所述检测词所属的文本领域,生成所述安全检测模型对应的权重;

27、基于每个所述权重对多个所述安全检测概率向量计算加权和,得到所述检测得分。

28、在一些实施例,所述基于预设检测词表,在所述检测文本中查找检测词,得到初始检测结果之前,所述文本检测方法还包括:

29、获取所述检测文本对应的待匹配文本,并将所述待匹配文本与预设白名单和预设黑名单进行匹配;

30、如果所述预设白名单中匹配到所述待匹配文本,则确定所述检测文本的检测结果为检测通过;

31、如果所述预设黑名单中匹配到所述待匹配文本,则确定所述检测文本的检测结果为检测不通过。

32、在一些实施例,所述基于预设检测词表,在所述检测文本中查找检测词,得到初始检测结果之前,所述文本检测方法还包括:

33、获取预设内容正则表达式,对所述检测文本进行预设内容的匹配,获取所述检测文本中所述预设内容的字符位置;

34、基于所述字符位置将所述检测文本中所述预设内容替换为掩码内容,得到替换后的所述检测文本。

35、为实现上述目的,本申请实施例的第二方面提出了一种文本检测装置,包括:

36、初始检测模块:用于获取检测文本,并基于预设检测词表,在所述检测文本中查找检测词,得到初始检测结果;所述预设检测词表包括多个所述检测词;

37、检测文段获取模块:用于确定所述初始检测结果指示所述检测文本中包括至少一个所述检测词,则将所述检测文本分割成多个检测文段;

38、安全检测模块:用于将所述检测文段输入多个安全检测模型进行安全检测,得到所述检测文段的检测得分;

39、检测结果确定模块:用于将所述检测得分小于第一得分阈值的所述检测文段作为决策文段,如果所述决策文段的数量小于决策数量阈值,确定所述检测文本的检测结果为检测通过。

40、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

41、为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

42、本申请实施例提出的文本检测方法、装置、设备和存储介质,通过获取检测文本,并基于预设检测词表,在检测文本中查找检测词,得到初始检测结果;其中,预设检测词表包括多个检测词;接着确定初始检测结果指示检测文本中包括至少一个检测词后,则将检测文本分割成多个检测文段;再将检测文段输入多个安全检测模型进行安全检测,得到检测文段的检测得分;最后将检测得分小于第一得分阈值本文档来自技高网...

【技术保护点】

1.一种文本检测方法,其特征在于,包括:

2.根据权利要求1所述的文本检测方法,其特征在于,所述如果所述决策文段的数量小于决策数量阈值,确定所述检测文本的检测结果为检测通过,包括:

3.根据权利要求1所述的文本检测方法,其特征在于,所述初始检测结果包括第一检测结果,所述第一检测结果用于指示所述检测文本中包括至少一个所述检测词;所述在所述检测文本中查找检测词,得到初始检测结果,包括:

4.根据权利要求3所述的文本检测方法,其特征在于,所述在所述检测文本中查找检测词,得到初始检测结果,还包括:

5.根据权利要求4所述的文本检测方法,其特征在于,所述获取所述待测词与所述预设检测词表中所述检测词的相似度值,包括:

6.根据权利要求5所述的文本检测方法,其特征在于,所述获取所述预设检测词表中每个所述检测词的检测嵌入向量,包括:

7.根据权利要求1所述的文本检测方法,其特征在于,所述将所述检测文段输入多个安全检测模型进行安全检测,得到所述检测文段的检测得分,包括:

8.根据权利要求1所述的文本检测方法,其特征在于,所述基于预设检测词表,在所述检测文本中查找检测词,得到初始检测结果之前,所述文本检测方法还包括:

9.根据权利要求1所述的文本检测方法,其特征在于,所述基于预设检测词表,在所述检测文本中查找检测词,得到初始检测结果之前,所述文本检测方法还包括:

10.一种文本检测装置,其特征在于,包括:

11.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的文本检测方法。

12.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的文本检测方法。

...

【技术特征摘要】

1.一种文本检测方法,其特征在于,包括:

2.根据权利要求1所述的文本检测方法,其特征在于,所述如果所述决策文段的数量小于决策数量阈值,确定所述检测文本的检测结果为检测通过,包括:

3.根据权利要求1所述的文本检测方法,其特征在于,所述初始检测结果包括第一检测结果,所述第一检测结果用于指示所述检测文本中包括至少一个所述检测词;所述在所述检测文本中查找检测词,得到初始检测结果,包括:

4.根据权利要求3所述的文本检测方法,其特征在于,所述在所述检测文本中查找检测词,得到初始检测结果,还包括:

5.根据权利要求4所述的文本检测方法,其特征在于,所述获取所述待测词与所述预设检测词表中所述检测词的相似度值,包括:

6.根据权利要求5所述的文本检测方法,其特征在于,所述获取所述预设检测词表中每个所述检测词的检测嵌入向量,包括:

7.根据权利要求1所述的文...

【专利技术属性】
技术研发人员:方滨兴贾焰张民顾钊铨齐佳音余跃徐春香张欢梁栩建谭昊
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1