基于人工智能的敏感词精确过滤方法技术

技术编号:43652244 阅读:36 留言:0更新日期:2024-12-13 12:46
本发明专利技术涉及文本处理技术领域,具体涉及基于人工智能的敏感词精确过滤方法,该方法包括:采集待过滤目标文本句子;使用正则表达式和中文分词工具获取各目标文本句子的词汇序列,并获取所有目标文本句子的疑似敏感词集合,进而获取各目标文本句子的书写合理性;根据BERT模型获取各目标文本句子的情感分数;根据FastText模型获取疑似敏感词和敏感词词典中词汇之间的语义相关性,并获取目标文本句子中各敏感词的语义脱敏度,进而获取各目标文本句子的语义脱敏度;计算各目标文本句子的潜在敏感指数,进而对目标文本句子进行过滤。本发明专利技术旨在解决由于考虑目标文本句子的特征太少从而导致过滤结果较差的问题。

【技术实现步骤摘要】

本申请涉及文本处理,具体涉及基于人工智能的敏感词精确过滤方法


技术介绍

1、随着互联网的蓬勃发展,网络文本内容呈现爆炸式增长。然而,这也伴随着个别用户在网络上散布不当言论的现象,这种行为不仅扰乱了网络秩序,还可能损害其他用户的浏览体验。为了营造一个清朗的网络空间,维护健康的在线环境,保障广大网民免受有害信息的侵扰,相关机构和组织必须对网络文本进行严格的审查与过滤。

2、得益于自然语言处理技术的飞速进步,人工智能在文本分析与处理方面的能力已趋成熟。通过运用这些先进的人工智能技术,能够有效地筛选和净化海量的网络文本数据,从而防止不良信息的传播,提升整体的网络环境质量,优化用户的在线体验。在敏感词的过滤工作中,可以借助正则表达式匹配、基于词典的搜索等方法来辨识和剔除潜在的有害内容。然而,面对一些用户故意规避自动检测系统的行为,如故意拼写错误、使用近义词替换、添加干扰字符等手段来变更敏感词的形态,这为敏感词的识别与过滤带来了额外的挑战。传统的敏感词识别过滤方法存在由于考虑目标文本句子的特征太少从而导致过滤结果较差的问题。

<br/>

本文档来自技高网...

【技术保护点】

1.基于人工智能的敏感词精确过滤方法,其特征在于,该方法包括以下步骤:

2.如权利要求1所述的基于人工智能的敏感词精确过滤方法,其特征在于,所述使用正则表达式和中文分词工具获取各目标文本句子的词汇序列,包括:

3.如权利要求1所述的基于人工智能的敏感词精确过滤方法,其特征在于,所述根据敏感词词典,使用正则表达式获取所有目标文本句子的疑似敏感词集合,包括:

4.如权利要求1所述的基于人工智能的敏感词精确过滤方法,其特征在于,所述根据疑似敏感词在疑似敏感词集合中的词频获取各目标文本句子的书写合理性,包括:

5.如权利要求1所述的基于人工智能的敏...

【技术特征摘要】

1.基于人工智能的敏感词精确过滤方法,其特征在于,该方法包括以下步骤:

2.如权利要求1所述的基于人工智能的敏感词精确过滤方法,其特征在于,所述使用正则表达式和中文分词工具获取各目标文本句子的词汇序列,包括:

3.如权利要求1所述的基于人工智能的敏感词精确过滤方法,其特征在于,所述根据敏感词词典,使用正则表达式获取所有目标文本句子的疑似敏感词集合,包括:

4.如权利要求1所述的基于人工智能的敏感词精确过滤方法,其特征在于,所述根据疑似敏感词在疑似敏感词集合中的词频获取各目标文本句子的书写合理性,包括:

5.如权利要求1所述的基于人工智能的敏感词精确过滤方法,其特征在于,所述根据bert模型训练得到情感分析模型,使用情感分析模型计算各目标文本句子的情感分数,包括:

6.如权...

【专利技术属性】
技术研发人员:徐宁姚鹏刘栋田志生
申请(专利权)人:深圳行星网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1