一种变体敏感词提取方法技术

技术编号:39574405 阅读:8 留言:0更新日期:2023-12-03 19:26
本发明专利技术公开了一种变体敏感词提取方法

【技术实现步骤摘要】
一种变体敏感词提取方法、装置、电子设备及存储介质


[0001]本专利技术涉及敏感词提取
,尤其涉及一种变体敏感词提取方法

装置

电子设备及存储介质


技术介绍

[0002]在互联网场景中,文字是承载信息的主要方式之一,而在通过互联网传播文字的过程中,经常会出现敏感文字的情况,因此,需要对用户发布的内容进行审核

[0003]然而,在实际场景中,用户为了规避敏感词审核,往往会采用敏感词的变体来发布相关文字,而敏感词变体会让文字浏览者联系到相关的敏感词,使得敏感信息得以散布

[0004]有鉴于此,现有技术提出了一种音近敏感词的扩展方法来扩展敏感词的数量,具体过程包括:对合法拼音表中的拼音两两组合;获取每个两两组合结果的编辑距离,并根据编辑距离提取得到音近拼音组,构建得到拼音

音近拼音表;基于拼音

音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换,并基于拼音

汉字表,将替换的任意字拼音映射成文字,构建得到候选音近次;对候选音近词进行预判断,实现对敏感词数据库的补充扩展

通过使用已有敏感词库和音近词表,推测黑产可能会使用的敏感词的音近字变体,来前置的解决整个环节的漏放可能性大

耗时长等特性,进而提高所提取关键词的有效性

[0005]然而,上述方式是使用衍生链的方式来筛选出音近敏感词,其音近敏感词往往无法贴近实际应用场景,导致敏感词提取不准确的问题


技术实现思路

[0006]本专利技术提供了一种变体敏感词提取方法

装置

电子设备及存储介质,用于解决音近敏感词往往无法贴近实际应用场景,导致敏感词提取不准确的技术问题

[0007]本专利技术提供了一种变体敏感词提取方法,包括:
[0008]构建基础敏感词库;所述基础敏感词库包括多个基础敏感词;
[0009]获取所述基础敏感词的敏感词拼音;
[0010]采用所述敏感词拼音从预设语料库中获取候选变体敏感词;
[0011]计算所述候选变体敏感词的违规概率;
[0012]根据所述违规概率从所述候选变体敏感词中提取变体敏感词

[0013]可选地,所述采用所述敏感词拼音从预设语料库中获取候选变体敏感词的步骤,包括:
[0014]获取所述预设语料库中的语句;
[0015]将所述语句中所述敏感词拼音对应的汉字片段作为候选词;
[0016]判断所述候选词中的所述敏感词拼音是否为完整拼音;
[0017]若是,则将所述候选词作为候选变体敏感词

[0018]可选地,所述计算所述候选变体敏感词的违规概率的步骤,包括:
[0019]计算各候选变体敏感词在所述预设语料库中的出现次数;
[0020]计算各候选变体敏感词的审核不通过次数;
[0021]计算各候选变体敏感词的审核不通过次数和出现次数的比值,作为各候选变体敏感词的违规概率

[0022]可选地,所述计算所述候选变体敏感词的违规概率的步骤,包括:
[0023]计算各候选变体敏感词在所述预设语料库中的出现次数;
[0024]获取各候选变体敏感词的被举报语句数;
[0025]计算各候选变体敏感词的被举报语句数和出现次数的比值,作为各候选变体敏感词的违规概率

[0026]可选地,所述根据所述违规概率从所述候选变体敏感词中提取变体敏感词的步骤,包括:
[0027]提取违规概率大于预设概率阈值的候选变体敏感词作为变体敏感词

[0028]可选地,所述根据所述违规概率从所述候选变体敏感词中提取变体敏感词的步骤之后,还包括:按照文字结构对所述变体敏感词进行拆分,得到变体拆分敏感词

[0029]本专利技术还提供了一种变体敏感词提取装置,包括:
[0030]基础敏感词库构建模块,用于构建基础敏感词库;所述基础敏感词库包括多个基础敏感词;
[0031]敏感词拼音获取模块,用于获取所述基础敏感词的敏感词拼音;
[0032]候选变体敏感词获取模块,用于采用所述敏感词拼音从预设语料库中获取候选变体敏感词;
[0033]违规概率计算模块,用于计算所述候选变体敏感词的违规概率;
[0034]变体敏感词提取模块,用于根据所述违规概率从所述候选变体敏感词中提取变体敏感词

[0035]可选地,所述候选变体敏感词获取模块,包括:
[0036]语句获取子模块,用于获取所述预设语料库中的语句;
[0037]候选词获取子模块,用于将所述语句中所述敏感词拼音对应的汉字片段作为候选词;
[0038]判断子模块,用于判断所述候选词中的所述敏感词拼音是否为完整拼音;
[0039]候选变体敏感词获取子模块,用于若是,则将所述候选词作为候选变体敏感词

[0040]本专利技术还提供了一种电子设备,所述设备包括处理器以及存储器:
[0041]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0042]所述处理器用于根据所述程序代码中的指令执行如上任一项所述的变体敏感词提取方法

[0043]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的变体敏感词提取方法

[0044]从以上技术方案可以看出,本专利技术具有以下优点:本专利技术通过构建基础敏感词库;基础敏感词库包括多个基础敏感词;获取基础敏感词的敏感词拼音;采用敏感词拼音从预设语料库中获取候选变体敏感词;计算候选变体敏感词的违规概率;根据违规概率从候选变体敏感词中提取变体敏感词

从而提高了敏感词提取的准确性

附图说明
[0045]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图

[0046]图1为本专利技术实施例提供的一种变体敏感词提取方法的步骤流程图;
[0047]图2为本专利技术另一实施例提供的一种变体敏感词提取方法的步骤流程图;
[0048]图3为本专利技术实施例提供的一种变体敏感词提取装置的结构框图

具体实施方式
[0049]本专利技术实施例提供了一种变体敏感词提取方法

装置

电子设备及存储介质,用于解决音近敏感词往往无法贴近实际应用场景,导致敏感词提取不准确的技术问题

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种变体敏感词提取方法,其特征在于,包括:构建基础敏感词库;所述基础敏感词库包括多个基础敏感词;获取所述基础敏感词的敏感词拼音;采用所述敏感词拼音从预设语料库中获取候选变体敏感词;计算所述候选变体敏感词的违规概率;根据所述违规概率从所述候选变体敏感词中提取变体敏感词
。2.
根据权利要求1所述的方法,其特征在于,所述采用所述敏感词拼音从预设语料库中获取候选变体敏感词的步骤,包括:获取所述预设语料库中的语句;将所述语句中所述敏感词拼音对应的汉字片段作为候选词;判断所述候选词中的所述敏感词拼音是否为完整拼音;若是,则将所述候选词作为候选变体敏感词
。3.
根据权利要求1所述的方法,其特征在于,所述计算所述候选变体敏感词的违规概率的步骤,包括:计算各候选变体敏感词在所述预设语料库中的出现次数;计算各候选变体敏感词的审核不通过次数;计算各候选变体敏感词的审核不通过次数和出现次数的比值,作为各候选变体敏感词的违规概率
。4.
根据权利要求1所述的方法,其特征在于,所述计算所述候选变体敏感词的违规概率的步骤,包括:计算各候选变体敏感词在所述预设语料库中的出现次数;获取各候选变体敏感词的被举报语句数;计算各候选变体敏感词的被举报语句数和出现次数的比值,作为各候选变体敏感词的违规概率
。5.
根据权利要求1所述的方法,其特征在于,所述根据所述违规概率从所述候选变体敏感词中提取变体敏感词的步骤,包括:提取违规概率大于预设概率阈值的候选变体敏感词作为变体敏感词
。6.
根...

【专利技术属性】
技术研发人员:吴文亮马金龙邓其春张政统王伟喆徐志坚谢睿陈光尧
申请(专利权)人:广州趣研网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1