一种人工智能的数据智能处理方法及系统技术方案

技术编号:39802547 阅读:5 留言:0更新日期:2023-12-22 02:33
本发明专利技术涉及离群点检测技术领域,具体涉及一种人工智能的数据智能处理方法及系统,通过获取每个账号的账号信息中每种类型的特征数据,对这些特征数据进行数据处理,从而确定每个账号的每种特征数据的特征范围跨度,进而确定每个账号的每种特征数据的调整后的特征范围跨度;基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并确定每个账号对应的所有邻近账号中每种邻近账号的优选程度;根据该优选程度,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测

【技术实现步骤摘要】
一种人工智能的数据智能处理方法及系统


[0001]本专利技术涉及离群点检测
,具体涉及一种人工智能的数据智能处理方法及系统


技术介绍

[0002]现有在利用
LOF
算法
(Local Outlier Factor
,局部异常因子检测算法
)
对短视频平台的账号进行异常账号检测的过程中,当需要确定每个账号的邻近距离时,需要计算每一个账号与其他账号的特征向量的欧式距离,然后找出欧氏距离最短的
k
个账号

然而短视频平台的账号数量庞大,且每个账号的特征向量的维数较高,对每一个账号都依次计算其他全部账号的欧氏距离需要巨大的计算量,导致异常账号检测的效率较低


技术实现思路

[0003]本专利技术的目的在于提供一种人工智能的数据智能处理方法及系统,用于解决现有异常账号检测计算量大,导致检测效率较低的问题

[0004]为解决上述技术问题,本专利技术提供了一种人工智能的数据智能处理方法,包括以下步骤:获取每个账号的账号信息,所述账号信息包括至少两种类型的特征数据;对每个账号的账号信息中的每种特征数据进行数据处理,获取每个账号的每种特征数据对应的分量值;根据不同账号的相同类型的特征数据对应的分量值之间的差异,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,并根据每个账号的每种特征数据对应的分量值及其各个邻近分量值,确定每个账号的每种特征数据对应的特征范围跨度;根据所有账号的总个数,以及每个账号的每种特征数据对应的分量值的邻近分量值的数目和特征数据的种类数,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度;基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并根据每个账号的每种特征数据的分量值

每个账号的每种特征数据对应的各个邻近账号对应类型的特征数据的分量值

每个账号对应的所有邻近账号中同一种邻近账号的出现次数

每个账号的特征数据的种类数以及每个账号的每种特征数据对应的调整后的特征范围跨度,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度;根据所述优选程度,对每个账号对应的邻近账号进行筛选,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测

[0005]进一步的,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度,对应的计算公式为:;其中,表示第个
账号的第种特征数据对应的调整后的特征范围跨度;表示第个账号的第种特征数据对应的特征范围跨度;表示第个账号的第种特征数据对应的分量值的邻近分量值的数目;表示所有账号的总个数;表示第个账号对应的特征数据的种类数;表示取最大值函数;表示反正切函数;表示圆周率

[0006]进一步的,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度,包括:确定第个账号的第种特征数据对应的分量值分别与第个账号的第种特征数据对应的每个邻近账号的第种特征数据对应的分量值的差值绝对值,从而得到分量差异值,并计算所述分量差异值与第个账号的第种特征数据对应的调整后的特征范围跨度的比值;根据第个账号对应的所有邻近账号中同一种邻近账号对应的所有比值

第个账号对应的所有邻近账号中同一种邻近账号的出现次数以及每个账号的特征数据的种类数,确定第个账号对应的所有邻近账号中每种邻近账号的优选程度

[0007]进一步的,确定第个账号对应的所有邻近账号中每种邻近账号的优选程度,对应的计算公式为:;其中,表示第个账号对应的所有邻近账号中第种邻近账号的优选程度;表示第个账号对应的所有邻近账号中第种邻近账号的出现次数;表示第个账号的特征数据的种类数;表示第个账号对应的所有邻近账号中第种邻近账号对应的第个比值

[0008]进一步的,获取每个账号的每种特征数据对应的分量值,包括:确定所有账号的同一种特征数据对应的理论最大值;对所有账号的同一种特征数据进行密度聚类,得到各个聚类簇,并获取各个聚类簇中包含特征数据最多的聚类簇的聚类中心;根据所述聚类中心,以及每个账号的每种特征数据与其对应的理论最大值的比值,确定每个账号的每种特征数据对应的分量值

[0009]进一步的,确定每个账号的每种特征数据对应的分量值,对应的计算公式为:;其中,表示第个账号的第种特征数据对应的分量值,表示所有账号的第种特征数据对应的理论最大值;表示第个账号的第种特征数据,为所有账号的第种特征数据对应的小于1的超参数;表示所有账号的第种特征数据对应的各个聚类簇中包含特征数据最多的聚类簇的聚类中心

[0010]进一步的,确定每个账号的每种特征数据对应的特征范围跨度,包括:确定每个账号的每种特征数据对应的分量值及其各个邻近分量值中的最大分量值和最小分量值,将最大分量值和最小分量值的差值确定为每个账号的每种特征数据对应的特征范围跨度

[0011]进一步的,确定每个账号的每种特征数据对应的各个邻近账号,包括:
根据每个账号的每种特征数据对应的调整后的特征范围跨度以及每个账号的每种特征数据对应的分量值,确定每个账号的每种特征数据对应的分量值波动范围;将每个账户作为目标账户,判断除了目标账户外的其他账户的每种特征数据对应的分量值是否位于目标账户的对应类型的特征数据对应的分量值波动范围内,并将位于目标账户的每种特征数据对应的分量值波动范围内的其他账户,确定为每个账号的每种特征数据对应的各个邻近账号

[0012]进一步的,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,包括:确定每种账号与其他每个账户的相同类型的特征数据对应的分量值的差值绝对值,并将每种账号的每种特征数据对应的所有差值绝对值中最小的前设定数目个差值绝对值对应的其他账户的分量值,确定为每个账号的每种特征数据对应的分量值的各个邻近分量值

[0013]为了解决上述技术问题,本专利技术还提供了一种人工智能的数据智能处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的计算机指令,以实现如上述任一项所述的一种人工智能的数据智能处理方法的步骤

[0014]本专利技术具有如下有益效果:本专利技术通过获取每个账号的账号信息,为了保证后续所确定的每个账号对应的各个优选账号的准确性,对账号信息中每种特征数据进行数据处理,从而得到每种特征数据对应的分量值

基于不同账号的相同类型的特征数据对应的分量值之间的差异,并结合所有账号的总个数

特征数据的种类数以及每个账号的每种特征数据对应的分量值的各个邻近分量值,自适应确定每个账号的每种特征数据对应的调整后的特征范围跨度,从而确定每个账号的每种特征数据对应的各个邻近账号,这些邻近账户中包含距离每个账号最近的
k
个账号<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种人工智能的数据智能处理方法,其特征在于,包括以下步骤:获取每个账号的账号信息,所述账号信息包括至少两种类型的特征数据;对每个账号的账号信息中的每种特征数据进行数据处理,获取每个账号的每种特征数据对应的分量值;根据不同账号的相同类型的特征数据对应的分量值之间的差异,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,并根据每个账号的每种特征数据对应的分量值及其各个邻近分量值,确定每个账号的每种特征数据对应的特征范围跨度;根据所有账号的总个数,以及每个账号的每种特征数据对应的分量值的邻近分量值的数目和特征数据的种类数,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度;基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并根据每个账号的每种特征数据的分量值

每个账号的每种特征数据对应的各个邻近账号对应类型的特征数据的分量值

每个账号对应的所有邻近账号中同一种邻近账号的出现次数

每个账号的特征数据的种类数以及每个账号的每种特征数据对应的调整后的特征范围跨度,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度;根据所述优选程度,对每个账号对应的邻近账号进行筛选,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测
。2.
根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度,对应的计算公式为:;其中,表示第个账号的第种特征数据对应的调整后的特征范围跨度;表示第个账号的第种特征数据对应的特征范围跨度;表示第个账号的第种特征数据对应的分量值的邻近分量值的数目;表示所有账号的总个数;表示第个账号对应的特征数据的种类数;表示取最大值函数;表示反正切函数;表示圆周率
。3.
根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度,包括:确定第个账号的第种特征数据对应的分量值分别与第个账号的第种特征数据对应的每个邻近账号的第种特征数据对应的分量值的差值绝对值,从而得到分量差异值,并计算所述分量差异值与第个账号的第种特征数据对应的调整后的特征范围跨度的比值;根据第个账号对应的所有邻近账号中同一种邻近账号对应的所有比值

第个账号对应的所有邻近账号中同一种邻近账号的出现次数以及每个账号的特征数据的种类数,确定第个账号对应的所有邻近账号中每种邻近账号的优选程度
。4.
根据权利要求3所述的一种人工智能的数据智能处理方法,其特征在于,确定第个账号对应的所有邻近账号中每种邻近账号的优选程度,对应的计算公式为:;其中,表示第个账号对应
...

【专利技术属性】
技术研发人员:李洪健罗鑫凯王新勇杨笑孙丕超
申请(专利权)人:中译文娱科技青岛有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1