一种文本内容异常检测的方法、装置、设备及介质制造方法及图纸

技术编号:36912869 阅读:24 留言:0更新日期:2023-03-18 09:30
本申请提供了一种文本内容异常检测的方法、装置、设备及介质,该方法包括:获取目标文本,并构造字典文件;从目标文本中确定待掩码字符并从多个目标类型中确定匹配每一个待掩码字符的特定目标类型;选取并使用目标替换字符替换该待掩码字符,得到训练数据;使用训练数据训练初始语言模型,得到文本内容异常检测模型;将待检测文本输入到文本内容异常检测模型中,得到还原文本;使用预设的目标违规词库对还原文本进行检测,确定异常内容。本申请使用了更加全面的替换字符,以使得到的文本内容异常检测模型更加符合实际应用场景,能够针对文本中的拼音相关内容进行处理,以使文本内容异常检测模型具有拼写纠错、拼音还原、无意义字符去除等功能。字符去除等功能。字符去除等功能。

【技术实现步骤摘要】
一种文本内容异常检测的方法、装置、设备及介质


[0001]本申请涉及文本内容异常检测
,具体而言,涉及一种文本内容异常检测的方法、装置、设备及介质。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。
[0003]文本内容安全审核是指运用自然语言处理技术,识别出文本中的违规违禁内容并进行适当处理。当前,广泛运用的内容安全审核技术是构建违规词库,收集各种类型的违禁词。通过检测待检测内容中是否有违禁词来判断内容是否违规。通过违规词库进行匹配的方法,恶意制造违规内容的人员可以通过拼音替换、拼音首字母替换、音近字替换、违禁词的字符之间插入无意义符号等方法对文本中的违禁词进行变形,从而绕过审核。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种文本内本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本内容异常检测方法,其特征在于,所述方法包括:获取设定领域的目标文本,并构造适用于所述目标文本的字典文件;其中,所述字典文件中包括多个目标类型的替换字符,所述目标类型至少包括拼音类型、拼音首字母类型和无意义字符类型;从所述目标文本中确定待掩码字符并从所述多个目标类型中确定匹配每一个待掩码字符的特定目标类型;针对每一个待掩码字符,从所述字典文件中包括的与该待掩码字符匹配的特定目标类型的替换字符中,选取该待掩码字符的目标替换字符,并使用所述目标替换字符替换该待掩码字符,得到训练数据;使用所述训练数据训练初始语言模型,得到训练好的文本内容异常检测模型;获取待检测文本,并将所述待检测文本输入到所述文本内容异常检测模型中,得到所述待检测文本中、对应所述多个目标类型的目标字符被还原成目标字符的还原文本;使用预设的目标违规词库对所述还原文本进行检测,确定所述还原文本中的异常内容。2.根据权利要求1所述的方法,其特征在于,所述从所述目标文本中确定待掩码字符,包括:根据所述设定领域中多个目标类型的替换统计结果或者以随机分配方式,预先配置所述多个目标类型在所述目标文本中的第一替换比例;根据所述多个目标类型在所述目标文本中的第一替换比例,从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。3.根据权利要求2所述的方法,其特征在于,所述根据所述多个目标类型在所述目标文本中的第一替换比例,从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型,包括:确定所述目标文本中待掩码字符的第二替换比例,并根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量;根据各个目标类型所述替换字符的第一替换比例以及所述目标文本中待掩码字符的目标数量,从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量:根据所述目标违规词库从所述目标文本中选出第一数量的第一字符;若所述第一数量小于所述目标数量,根据所述目标文本中除所述第一字符以外的第二字符的向量和所述目标违规词库中违规词的向量的距离,从所述第二字符中选出第二数量的第三字符作为待掩码字符;所述第二数量为所述第一数量与所述目标数量的差值;若所述第一数量大于等于所述目标数量,则从所述第一数量中选出所述目标数量的第一字符作为所述待掩码字符。5.根据权利要求1所述的方法,其特征在于,通过以下方式构建所述目标违规词库:根据设置的违规类型,获取各个违规类型下的种子敏感词,并配置各个所述种子敏感词的违规权重;根据所述种子敏感词与待选敏感词之间的相似度,从所述待选敏感词中选出初选敏感
词,并确定所述初选敏感词的违规权重;根据所述初选敏感词与待选敏感词之间的相似度,从所述待选敏感词中选出再选敏感词,并确定所述再选敏感词的违规权重;通过筛选从所述初选敏感词和所述再选敏感词中确定出扩充敏感词和所述扩充敏感词对应的违规权重;根据所述种子敏感词、所述种子敏感词的违规权重、所述扩充敏感词和所述扩充敏感词的违规权重构建所述目标违规词库。6.根据权利要求5所述的方法,其特...

【专利技术属性】
技术研发人员:李文举张博匡海泉支蕴倩
申请(专利权)人:北京匠数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1