文本违规检测、文本还原方法、数据处理方法及设备技术

技术编号：23625045 阅读：48 留言：0更新日期：2020-03-31 22:46

本申请实施例提供一种文本违规检测、文本还原方法、数据处理方法及设备。其中，方法包括如下的步骤：获取待检测文字序列对应的与字要素有关的要素序列；基于所述要素序列，对所述待检测文字序列进行还原处理得到还原序列；根据所述还原序列，判定所述待检测文字序列是否违规。本申请实施例提供的技术方案能够实现对变异违规信息的检测，可提高违规信息的检出率。

Text violation detection, text restoration method, data processing method and equipment

全部详细技术资料下载

【技术实现步骤摘要】
文本违规检测、文本还原方法、数据处理方法及设备
本申请涉及计算机
，尤其涉及一种文本违规检测、文本还原方法、数据处理方法及设备。
技术介绍
随着互联网扁平化的发展,网站内容信息的传递比以往更加便利，但这也大大增加了违规信息的传播风险。为了净化网站平台以及维护网络的安全和稳定，对网站中存在的违规内容进行治理成为了意义重大又迫在眉睫的事情。现有技术中，通常是根据已发现违规信息构建违规信息库，后续将待检测文本与违规信息库中违规信息进行匹配，以确定待检测文本是否违规。目前，网站上出现了很多用户原创内容，其内容多是口语化的表现，其中充斥着大量不规范的网络用语，文字形式多样，表达内容随意；并且，很多违规信息的发布者会有意采取规避违规信息检测的策略来对违规信息进行变异处理。这使得现有技术中的仅基于违规信息库来检测违规信息的方法难以对这些用户原创内容等变异违规信息进行有效的检测，违规信息检出率较低。
技术实现思路
鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的文本违规检测...

【技术保护点】
1.一种文本违规检测方法，其特征在于，包括：/n获取待检测文字序列对应的与字要素有关的要素序列；/n基于所述要素序列，对所述待检测文字序列进行还原处理得到还原序列；/n根据所述还原序列，判定所述待检测文字序列是否违规。/n

【技术特征摘要】
1.一种文本违规检测方法，其特征在于，包括：
获取待检测文字序列对应的与字要素有关的要素序列；
基于所述要素序列，对所述待检测文字序列进行还原处理得到还原序列；
根据所述还原序列，判定所述待检测文字序列是否违规。

2.根据权利要求1所述的方法，其特征在于，所述字要素包括字的拼音要素，与所述字要素有关的要素序列为拼音序列时，
基于所述要素序列，对所述待检测文字序列进行还原处理得到还原序列，包括：
在敏感词拼音样本库中，进行所述拼音序列的匹配；
基于匹配到的第一敏感词拼音样本，对所述待检测文字序列进行还原处理。

3.根据权利要求2所述的方法，其特征在于，基于匹配到的第一敏感词拼音样本，对所述待检测文字序列进行还原处理，包括：
获取匹配到的第一敏感词拼音样本对应的第一敏感词；
将所述待检测文字序列中所述第一敏感词拼音样本对应的第一文字片段替换为所述第一敏感词。

4.根据权利要求2所述的方法，其特征在于，所述敏感词拼音样本库中包括：敏感词拼音查找树；所述拼音序列中包括n个单字拼音，其中，n为大于1的整数；
在敏感词拼音样本库中，进行所述拼音序列的匹配，包括：
在所述敏感词拼音查找树中，进行所述拼音序列中第i个单字拼音到第n个单字拼音之间的子拼音序列的匹配，其中，i为大于等于1且小于等于n-1的整数；
匹配到第一敏感词拼音样本时，确定所述第一敏感词拼音样本中单字拼音的数量q；i+q小于等于n-1时，继续进行所述拼音序列中第i+q个单字拼音到第n个单字拼音之间的子拼音序列的匹配；若i+q大于等于n时，则匹配结束；
未匹配到第一敏感词拼音样本时，若i+1小于等于n-1，则继续进行所述拼音序列中第i+1个单字拼音到第n个单字拼音之间的子拼音序列的匹配；若i+1为n时，则匹配结束。

5.根据权利要求2所述的方法，其特征在于，还包括：
获取敏感词库；
对所述敏感词库中的敏感词，按第一个字的拼音首字母进行分类，并对第一个字的拼音首字母相同的敏感词进行同音聚类，以得到所述敏感词拼音查找树；
所述敏感词库中任一敏感词的单字拼音作为整体对应存储在所述敏感词拼音查找树的一结点中。

6.根据权利要求5所述的方法，其特征在于，所述敏感词拼音查找树中对应于所述敏感词库中任一敏感词的尾字拼音的结点中还存储有用于索引对应敏感词的键值和/或对应敏感词的初始敏感度值。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述字要素包括字的偏旁要素，与所述字要素有关的要素序列为偏旁序列时，
基于所述要素序列，对所述待检测文字序列进行还原处理得到还原序列，包括：
获取敏感词偏旁拆分样本库，所述敏感词偏旁拆分样本库中包括敏感词库中各敏感词对应的多种敏感词偏旁拆分词；
在敏感词偏旁拆分样本库中，进行所述偏旁序列的匹配；
基于匹配到的第一敏感词偏旁拆分词，对所述待检测文字序列进行还原处理。

8.根据权利要求7所述的方法，其特征在于，基于匹配到的第一敏感词偏旁拆分词，对所述待检测文字序列进行还原处理，包括：
获取匹配到的第一敏感词偏旁拆分词对应的第二敏感词；
将所述待检测文字序列中所述第一敏感词偏旁拆分词对应的第二文字片段替换为所述第二敏感词。

9.根据权利要求7所述的方法，其特征在于，所述偏旁序列包括m个偏旁；
在敏感词偏旁拆分样本库中，进行所述偏旁序列的匹配，包括：
在所述敏感词偏旁拆分样本库中，进行所述偏旁序列中第j个偏旁到第m个偏旁之间的子偏旁序列的匹配，其中，j为大于等于1且小于等于m-1的整数；
匹配到第一敏感词偏旁拆分词时，确定所述第一敏感词偏旁拆分词中偏旁的数量p；j+p小于等于m-1时，继续进行所述偏旁序列中第j+p个偏旁到第m个偏旁之间的子偏旁序列的匹配；若j+p大于等于m时，则匹配结束；
未匹配到第一敏感词偏旁拆分词时，若j+1小于等于m-1，则继续进行所述偏旁序列中第j+1个偏旁到第m个偏旁之间的子偏旁序列的匹配；若j+1为m时，则匹配结束。

10.根据权利要求1至6中任一项所述的方法，其特征在于，根据所述还原序列，判定所述待检测文字序列是否违规，包括：
在所述还原序列中查找到至少一个敏感词；
根据所述至少一个敏感词，对所述待检测文字序列进行违规程度评分；
根据违规程度评分结果，判断所述待检测文字序列是否违规。

11.根据权利要求10所述的方法，其特征在于，根据所述至少一个敏感词，对所述待检测文字序列进行违规程度评分，包括：
获取所述至少一个敏感词中各敏感词对应的敏感度值；
对所述至少一个敏感词中各敏感词对应的敏感度值进行求和，得到所述待检测文字序列的分值。

12.根据权利要求11所述的方法，其特征在于，所述至少一个敏感词中包括第三敏感词；
获取所述第三敏感词对应的敏感度值，包括：
获取所述第三敏感词对应的初始敏感度值；
确定所述第三敏感词在所述还原序列中的句子成分；
获取所述第三敏感词作为所述句子成分时的第一权重系数；
将所述第一权重系数和所述初始敏感度值的乘积作为所述第三敏感词对应的敏感度值。

13.根据权利要求12所述的方法，其特征在于，根据所述...

【专利技术属性】
技术研发人员：庞玉，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人