一种敏感词检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40061592 阅读:19 留言:0更新日期:2024-01-16 22:46
本发明专利技术提供一种敏感词检测方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,该方法包括:获取待检测文本中待检测词;在目标字典树中检测所述待检测词包含的目标分词,所述目标分词包括所述待检测词中的至少部分字符,所述目标字典树包括一个根节点和与所述根节点连接的至少一个叶节点,所述根节点为空,每一个叶节点表示一个字符,所述叶节点之间的连接形成目标词,所述目标分词的第一个字符匹配的叶节点为所述根节点的子节点,第n个字符对应的叶节点为第n‑1个字符对应的叶节点的子节点,n为大于1的整数;根据所述目标分词在所述目标字典树中的属性类型,生成所述待检测词的检测结果,所述属性类型包括合规词或敏感词。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种敏感词检测方法、装置、电子设备及存储介质


技术介绍

1、现如今,随着互联网的快速发展,人们可以通过网络获取各种各样的网络资源和信息,在此过程中,存在一部分利用网络传播快速的优势,发布敏感信息的用户,敏感信息可能给其他用户带来伤害,并且造成不良影响。

2、在相关技术中,互联网公司或是信息管理部门会对用户在互联网上发布的信息进行审核和过滤,通过采用黑白词收集或关键词过滤的方法对用户生成的内容进行关键词匹配和筛选,其中,黑白词收集方法通常利用黑白词库对敏感词或是合规词进行判断,黑白词库由人工审核的方式进行收集和更新,同样地,在关键词过滤方法中,也需要人工审核匹配的关键词,而人工审核时可能存在误判和漏判的情况,某些合规内容可能被错误标记为违规,某些敏感内容也有可能会被错误标记为合规。

3、可见,相关技术中仍存在对敏感词检测准确性较低的问题。


技术实现思路

1、本专利技术实施例提供了一种敏感词检测方法、装置、电子设备及存储介质,以解决现有技术中对敏感词检本文档来自技高网...

【技术保护点】

1.一种敏感词检测方法,其特征在于,包括:

2.根据权利要求1所述的敏感词检测方法,其特征在于,在所述获取待检测文本中的待检测词之前,所述方法还包括:

3.根据权利要求2所述的敏感词检测方法,其特征在于,所述目标字典树基于并发有序映射表函数ConcurrentSkipListMap进行创建。

4.根据权利要求2所述的敏感词检测方法,其特征在于,所述基于所述基准词集合创建所述目标字典树,包括:

5.根据权利要求1所述的敏感词检测方法,其特征在于,所述检测目标字典树中包含的目标分词,包括:

6.根据权利要求5所述的方法,其特征在于,...

【技术特征摘要】

1.一种敏感词检测方法,其特征在于,包括:

2.根据权利要求1所述的敏感词检测方法,其特征在于,在所述获取待检测文本中的待检测词之前,所述方法还包括:

3.根据权利要求2所述的敏感词检测方法,其特征在于,所述目标字典树基于并发有序映射表函数concurrentskiplistmap进行创建。

4.根据权利要求2所述的敏感词检测方法,其特征在于,所述基于所述基准词集合创建所述目标字典树,包括:

5.根据权利要求1所述的敏感词检测方法,其特征在于,所述检测目标字典树中包含的目标分词,包括:

6.根据权利要求5所述的方法,其特...

【专利技术属性】
技术研发人员:冯凯
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1