一种敏感文本识别方法、系统、电子设备及存储介质技术方案

技术编号：30768886 阅读：50 留言：0更新日期：2021-11-10 12:34

本发明专利技术提出一种敏感文本识别方法、系统、电子设备及存储介质，其方法技术方案包括多叉树文本扩展步骤，对敏感文本中的字进行一预扩展，并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展；DFA文本扩展步骤，通过DFA技术对含有无效字符的所述敏感文本进行扩展；文本分类扩展步骤，收集所述敏感文本作为正样本，并收集非敏感文本作为负样本，根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展；融合文本识别步骤，对所述敏感文本，根据所述敏感文本的字数，通过所述多叉树、所述DFA和所述文本分类算法进行识别。本申请解决了现有敏感文本识别方法误杀率高、效果不理想的问题。效果不理想的问题。效果不理想的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种敏感文本识别方法、系统、电子设备及存储介质

[0001]本专利技术属于文本识别
，尤其涉及一种敏感文本识别方法、系统、电子设备及存储介质。

技术介绍

[0002]在网络世界中，存在着各类辱骂、黄色等敏感文本，这类文本会给其他用户带来非常不好的体验，而有的人为了逃避识别，将文本稍加改变，以逃过识别。因此，敏感的识别对净化网络环境有重要意义。

技术实现思路

[0003]本申请实施例提供了一种敏感文本识别方法、系统、电子设备及存储介质，以至少解决现有敏感文本识别方法误杀率高、效果不理想的问题。
[0004]第一方面，本申请实施例提供了一种敏感文本识别方法，包括：多叉树文本扩展步骤，对敏感文本中的字进行一预扩展，并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展；DFA文本扩展步骤，通过DFA技术对含有无效字符的所述敏感文本进行扩展；文本分类扩展步骤，收集所述敏感文本作为正样本，并收集非敏感文本作为负样本，根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展；融合文本识别步骤，对所...

【技术保护点】

【技术特征摘要】
1.一种敏感文本识别方法，其特征在于，包括：多叉树文本扩展步骤，对敏感文本中的字进行一预扩展，并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展；DFA文本扩展步骤，通过DFA技术对含有无效字符的所述敏感文本进行扩展；文本分类扩展步骤，收集所述敏感文本作为正样本，并收集非敏感文本作为负样本，根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展；融合文本识别步骤，对所述敏感文本，根据所述敏感文本的字数，通过所述多叉树、所述DFA和所述文本分类算法进行识别。2.根据权利要求1所述的敏感文本识别方法，其特征在于，所述文本分类扩展步骤进一步包括：通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。3.根据权利要求2所述的敏感文本识别方法，其特征在于，所述文本分类扩展步骤进一步包括：对所述负样本进行随机切分，将得到的切分块与所述正样本通过二分类进行文本分类。4.根据权利要求1所述的敏感文本识别方法，其特征在于，所述融合文本识别步骤进一步包括：若所述敏感文本的字数小于一阈值，则通过所述多叉树和所述DFA进行识别，反之则通过所述文本分类算法进行识别。5.一种敏感文本识别系统，其特征在于，包括：多叉树文本扩展模块，对敏感文本中的字进行一预扩展，并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展；DFA文本扩展模块...

【专利技术属性】
技术研发人员：方依，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人