【技术实现步骤摘要】
本专利技术涉及电子数字数据处理,具体涉及一种数据违规风险智能检测方法及系统。
技术介绍
1、在进行违规词检测时,通常通过建立违禁词数据库的方式与网络平台上的数据进行处理和违规比对,以生成比对结构,如相同则标记为1,如不相同则标记为0,但是由于违禁词数据库中字符的数据量庞大,使得在进行违规词对比的过程中需要大量的计算过程,不能及时得到检测结果,影响数据违规检测结果的及时性。
技术实现思路
1、本专利技术提供一种数据违规风险智能检测方法及系统,以解决现有的问题。
2、本专利技术的一种数据违规风险智能检测方法及系统采用如下技术方案:
3、本专利技术一个实施例提供了一种数据违规风险智能检测方法,该方法包括以下步骤:
4、获取违禁词数据库以及网络平台中的文字信息,所述违禁词数据库包含若干违禁词,每个违禁词包含若干违禁字,所述文字信息包括若干字符;
5、根据违禁词数据库中包含不同违禁字的违禁词的数量获得不同违禁字之间的共现率,根据不同违禁字之间的共现率对
...【技术保护点】
1.一种数据违规风险智能检测方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据违禁词数据库中包含不同违禁字的违禁词的数量获得不同违禁字之间的共现率,包括的具体方法为:
3.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据不同违禁字之间的共现率对违禁词数据库中所有违禁字进行层次聚类,得到第一层次树,包括的具体方法为:
4.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据第一层次树中每层以及每层中的每个簇类内不同违禁词之间共现率的和值,
...【技术特征摘要】
1.一种数据违规风险智能检测方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据违禁词数据库中包含不同违禁字的违禁词的数量获得不同违禁字之间的共现率,包括的具体方法为:
3.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据不同违禁字之间的共现率对违禁词数据库中所有违禁字进行层次聚类,得到第一层次树,包括的具体方法为:
4.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据第一层次树中每层以及每层中的每个簇类内不同违禁词之间共现率的和值,获得第一层次树中每层的簇类划分系数,根据簇类划分系数的大小得到第一层次树中的目标层,包括的具体方法为:
5.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据目标层中每个违禁字与其他违禁字的共现率,对目标层中的每个类簇的违禁字进行排序得到每个违禁字的第二次序值,结合第二次序值并根据文字信息中的所有字符和违禁词数据库中所有违禁字构建第一字典,包括的具体方法为:
...
【专利技术属性】
技术研发人员:林欣扬,骆龙泉,连志尧,郑翠春,
申请(专利权)人:厦门众联世纪股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。