一种敏感词识别方法技术

技术编号：39492307 阅读：8 留言：0更新日期：2023-11-24 11:14

本申请涉及数据处理技术领域，尤其是涉及一种敏感词识别方法

全部详细技术资料下载

【技术实现步骤摘要】
一种敏感词识别方法、装置、设备及介质

[0001]本申请涉及数据处理
，尤其是涉及一种敏感词识别方法
、
装置
、
设备及介质
。

技术介绍

[0002]互联网平台中的多数信息均是以文本形式呈现，如，人们可以通过互联网观看视频或者网页，同时可以通过评价系统发表评论，或者通过互联网进行对话等等
。
在用户通过对话系统或者评价系统输入文本内容时，可能存在一些不当的言论或者内容，不可避免的出现一些敏感词，那么，为了营造一个良好的互联网使用环境，对文本内容的监管显得尤为重要
。
[0003]对文本内容的监管，多采用包括各类型敏感词的敏感词库进行敏感词的类型识别以及位置检测
。
随着人工智能的发展，也会有一些敏感词检测融入了大数据技术，如，通过
N
‑
gram
模型进行新词发现扩充敏感词库，但是，构建以及维护敏感词库不仅浪费人力以及时间，部分敏感词有多重语义，容易误判正常语境下的内容，也对于一些敏感词变体很难检测出来
。
因此，常规的敏感词识别方式需要耗费大量人力，且识别效果较差
。

技术实现思路

[0004]本申请目的是提供一种敏感词识别方法
、
装置
、
设备及介质，能够提高敏感词检测效果及效率
。
[0005]本申请的上述申请目的一是通过以下技术方案得以实现的：第一方面，提供了一种敏感词识别方法，包括：获取待...

【技术保护点】

【技术特征摘要】
1.
一种敏感词识别方法，其特征在于，包括：获取待检测文本数据；利用多类别敏感词识别模型对所述待检测文本数据进行敏感词识别，得到所述待检测文本数据对应的敏感词类别以及敏感词对应的位置；提示所述敏感词类别，并根据所述敏感词对应的位置，将敏感词替换为预设符号；其中，所述多类别敏感词识别模型包括：膨胀卷积层
、
特征提取层
、
全连接层和
CRF
层，所述利用多类别敏感词识别模型对所述待检测文本数据进行敏感词识别，包括：确定所述待检测文本数据对应的词向量序列，所述词向量序列能够表示上下文信息；根据所述词向量序列利用所述膨胀卷积层进行膨胀卷积操作，得到第一特征向量；根据所述第一特征向量，利用所述特征提取层进行随机失活以及数据变换，得到第二特征向量；基于所述第二特征向量利用所述全连接层进行敏感词多分类分析，得到所述待检测文本数据对应的若干敏感词类别；根据所述第二特征向量，利用所述
CRF
层，确定敏感词对应的位置以及对应的敏感词类别
。2.
根据权利要求1所述的敏感词识别方法，其特征在于，所述多类别敏感词识别模型训练过程，包括：基于训练集训练初始多类别敏感词识别模型，得到训练后多类别敏感词识别模型，其中，训练集包括：多条敏感词训练样本以及各敏感词训练样本对应的标签，所述标签包括多类别标签和敏感词位置标签；基于验证集，确定所述训练后多类别敏感词识别模型的损失值，并根据损失值和预设损失值调整所述训练后多类别敏感词识别模型的模型参数，进行迭代训练，得到所述多类别敏感词识别模型
。3.
根据权利要求2所述的敏感词识别方法，其特征在于，还包括：在迭代训练过程中，当连续预设轮次训练的损失值的变化幅度小于预设幅度阈值时，根据优化样本更新所述训练集和所述验证集，并根据更新后的训练集和验证集继续进行迭代训练
。4.
根据权利要求1所述的敏感词识别方法，其特征在于，所述利用多类别敏感词识别模型对所述待检测文本数据进行敏感词识别，得到所述待检测文本数据对应的敏感词类别以及敏感词对应的位置之前，还包括：基于触发条件确定敏感词识别模式；所述触发条件至少包括以下一种：所述待检测文本数据的文本来源是否为网络来源时；识别精准度是否大于预设精准度阈值；检测到用户触发的指令中的指定识别模式；当所述敏感词识别模式包括语义分析模式时，执行利用多类别敏感词识别模型对所述待检测文本数据进行敏感词识别，得到所述待检测文本数据对应的敏感词类别以及敏感词对应的位置；当所述敏感词识别模式包括匹配模式时，利用敏感词字典树确定所述待检测文本数据对应的敏感词类别以及所述敏感词对应的位置
。5.
根据权利要求4所述的敏感词识别方法，其特征在于，当敏感词识别模式为匹配模式
和语义分析模式时；所述根据所述敏感词对应的位置，将敏感词替换为预设符号之后，还包括：根据所述匹配模式确定所述待检测文本数据的补充敏感词及补充敏感词...

【专利技术属性】
技术研发人员：熊浩，万青玲，刘波，
申请(专利权)人：河北神玥软件科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人