【技术实现步骤摘要】
敏感词的确定方法、装置、设备、存储介质及程序产品
[0001]本申请实施例涉及人工智能领域,特别涉及一种敏感词的确定方法、装置、设备、存储介质及程序产品。
技术介绍
[0002]为了保证良好的互联网环境,诸如网站、论坛、应用等互联网产品中,都会对敏感词进行屏蔽处理。
[0003]相关技术中,通常基于预先设置的敏感词词汇表进行敏感词识别,进而对识别出的敏感词进行屏蔽。比如,当评论信息由单词1、单词2以及单词3构成时,若单词1属于敏感词词汇表,则该评论信息将被屏蔽。
[0004]然而,对于表音文字,不法分子可能会对敏感词进行变形以避免被屏蔽,导致基于词汇表进行敏感词屏蔽的效果较差。比如,英文场景下,英文敏感词的变形方式包括调整字母顺序或者省略部分字母等等。
技术实现思路
[0005]本申请实施例提供了一种敏感词的确定方法、装置、设备、存储介质及程序产品。所述技术方案如下:
[0006]一方面,本申请实施例提供了一种敏感词的确定方法,所述方法包括:
[0007]基于语料文本以及所述语 ...
【技术保护点】
【技术特征摘要】
1.一种敏感词的确定方法,其特征在于,所述方法包括:基于语料文本以及所述语料文本中各个单词的子词训练词向量提取模型,所述语料文本为表音文字文本;通过所述词向量提取模型对所述语料文本对应的候选词进行特征提取,得到各个候选词对应的候选词词向量,所述候选词由至少一个单词构成;通过所述词向量提取模型对敏感词原词进行特征提取,得到敏感词词向量,所述敏感词原词由至少一个单词构成;基于所述敏感词词向量以及所述候选词词向量,确定所述候选词中的候选敏感词,所述候选敏感词包含所述敏感词原词或敏感词变形词中的至少一种,所述敏感词变形词由所述敏感词原词变形得到。2.根据权利要求1所述的方法,其特征在于,所述基于语料文本以及所述语料文本中各个单词的子词训练词向量提取模型,包括:对所述语料文本中的各个单词进行n
‑
gram分词,得到所述子词,n为大于等于2的整数;基于所述语料文本中的单词以及所述子词生成词序列;基于所述词序列以及所述语料文本中单词的上下文关系,训练所述词向量提取模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述词序列以及所述语料文本中单词的上下文关系,训练所述词向量提取模型,包括:基于所述词序列以及所述语料文本中单词的上下文关系,通过skip
‑
gram算法训练所述词向量提取模型,所述skip
‑
gram算法用于根据中心词进行上下文预测;或,基于所述词序列以及所述语料文本中单词的上下文关系,通过CBOW算法训练所述词向量提取模型,所述CBOW算法用于根据上下文进行中心词预测。4.根据权利要求2所述的方法,其特征在于,所述词向量提取模型为Fasttext词向量提取模型。5.根据权利要求1至4任一所述的方法,其特征在于,所述通过所述词向量提取模型对所述语料文本对应的候选词进行特征提取,得到各个候选词对应的候选词词向量之前,所述方法包括:获取所述候选敏感词的目标词数量,所述目标词数量为所述候选敏感词中包含的单词的数量;基于所述目标词数量对所述语料文本进行分词处理,得到至少一个所述候选词,所述候选词由所述目标词数量的单词构成,且所述候选词中的单词在所述语料文本...
【专利技术属性】
技术研发人员:李聪健,刘海东,
申请(专利权)人:广州市百果园网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。