一种数据违规风险智能检测方法及系统技术方案

技术编号:42307244 阅读:20 留言:0更新日期:2024-08-14 15:53
本发明专利技术涉及电子数字数据处理技术领域,具体涉及一种数据违规风险智能检测方法及系统,包括:通过处理各类数据获取包含的文字信息,将识别后的文字信息与违禁词库内的词进行比对,得到数据违规检测结果,在比对过程中通过对所有违禁字进行层次聚类,获取不同违禁词之间共现率,得到目标层,对目标层中每个类簇的违禁字排序,以构建第一字典,根据字符在第一字典中的次序的差异,将字符与违禁词数据库进行对比。本发明专利技术提高了文字信息中的违禁字和非违禁字之间的差异,提高了对文字信息中的字符与违禁词数据库中的违禁字进行对比的效率,提高了数据违规风险检测结果的及时性。

【技术实现步骤摘要】

本专利技术涉及电子数字数据处理,具体涉及一种数据违规风险智能检测方法及系统


技术介绍

1、在进行违规词检测时,通常通过建立违禁词数据库的方式与网络平台上的数据进行处理和违规比对,以生成比对结构,如相同则标记为1,如不相同则标记为0,但是由于违禁词数据库中字符的数据量庞大,使得在进行违规词对比的过程中需要大量的计算过程,不能及时得到检测结果,影响数据违规检测结果的及时性。


技术实现思路

1、本专利技术提供一种数据违规风险智能检测方法及系统,以解决现有的问题。

2、本专利技术的一种数据违规风险智能检测方法及系统采用如下技术方案:

3、本专利技术一个实施例提供了一种数据违规风险智能检测方法,该方法包括以下步骤:

4、获取违禁词数据库以及网络平台中的文字信息,所述违禁词数据库包含若干违禁词,每个违禁词包含若干违禁字,所述文字信息包括若干字符;

5、根据违禁词数据库中包含不同违禁字的违禁词的数量获得不同违禁字之间的共现率,根据不同违禁字之间的共现率对违禁词数据库中所有违本文档来自技高网...

【技术保护点】

1.一种数据违规风险智能检测方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据违禁词数据库中包含不同违禁字的违禁词的数量获得不同违禁字之间的共现率,包括的具体方法为:

3.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据不同违禁字之间的共现率对违禁词数据库中所有违禁字进行层次聚类,得到第一层次树,包括的具体方法为:

4.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据第一层次树中每层以及每层中的每个簇类内不同违禁词之间共现率的和值,获得第一层次树中每层...

【技术特征摘要】

1.一种数据违规风险智能检测方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据违禁词数据库中包含不同违禁字的违禁词的数量获得不同违禁字之间的共现率,包括的具体方法为:

3.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据不同违禁字之间的共现率对违禁词数据库中所有违禁字进行层次聚类,得到第一层次树,包括的具体方法为:

4.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据第一层次树中每层以及每层中的每个簇类内不同违禁词之间共现率的和值,获得第一层次树中每层的簇类划分系数,根据簇类划分系数的大小得到第一层次树中的目标层,包括的具体方法为:

5.根据权利要求1所述一种数据违规风险智能检测方法,其特征在于,所述根据目标层中每个违禁字与其他违禁字的共现率,对目标层中的每个类簇的违禁字进行排序得到每个违禁字的第二次序值,结合第二次序值并根据文字信息中的所有字符和违禁词数据库中所有违禁字构建第一字典,包括的具体方法为:

...

【专利技术属性】
技术研发人员:林欣扬骆龙泉连志尧郑翠春
申请(专利权)人:厦门众联世纪股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1