【技术实现步骤摘要】
一种人工智能的数据智能处理方法及系统
[0001]本专利技术涉及离群点检测
,具体涉及一种人工智能的数据智能处理方法及系统
。
技术介绍
[0002]现有在利用
LOF
算法
(Local Outlier Factor
,局部异常因子检测算法
)
对短视频平台的账号进行异常账号检测的过程中,当需要确定每个账号的邻近距离时,需要计算每一个账号与其他账号的特征向量的欧式距离,然后找出欧氏距离最短的
k
个账号
。
然而短视频平台的账号数量庞大,且每个账号的特征向量的维数较高,对每一个账号都依次计算其他全部账号的欧氏距离需要巨大的计算量,导致异常账号检测的效率较低
。
技术实现思路
[0003]本专利技术的目的在于提供一种人工智能的数据智能处理方法及系统,用于解决现有异常账号检测计算量大,导致检测效率较低的问题
。
[0004]为解决上述技术问题,本专利技术提供了一种人工智能的数据智能处理方法,包括以下步骤:获取每个账号的账号信息,所述账号信息包括至少两种类型的特征数据;对每个账号的账号信息中的每种特征数据进行数据处理,获取每个账号的每种特征数据对应的分量值;根据不同账号的相同类型的特征数据对应的分量值之间的差异,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,并根据每个账号的每种特征数据对应的分量值及其各个邻近分量值,确定每个账号的每种特征数据对应的特征范围跨度;根据所有账号的总个 ...
【技术保护点】
【技术特征摘要】
1.
一种人工智能的数据智能处理方法,其特征在于,包括以下步骤:获取每个账号的账号信息,所述账号信息包括至少两种类型的特征数据;对每个账号的账号信息中的每种特征数据进行数据处理,获取每个账号的每种特征数据对应的分量值;根据不同账号的相同类型的特征数据对应的分量值之间的差异,确定每个账号的每种特征数据对应的分量值的各个邻近分量值,并根据每个账号的每种特征数据对应的分量值及其各个邻近分量值,确定每个账号的每种特征数据对应的特征范围跨度;根据所有账号的总个数,以及每个账号的每种特征数据对应的分量值的邻近分量值的数目和特征数据的种类数,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度;基于调整后的特征范围跨度,确定每个账号的每种特征数据对应的各个邻近账号,并根据每个账号的每种特征数据的分量值
、
每个账号的每种特征数据对应的各个邻近账号对应类型的特征数据的分量值
、
每个账号对应的所有邻近账号中同一种邻近账号的出现次数
、
每个账号的特征数据的种类数以及每个账号的每种特征数据对应的调整后的特征范围跨度,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度;根据所述优选程度,对每个账号对应的邻近账号进行筛选,确定每个账号对应的各个优选账号,并根据每个账号对应的各个优选账号,对各个账号进行异常检测
。2.
根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,对所述特征范围跨度进行调整,得到每个账号的每种特征数据对应的调整后的特征范围跨度,对应的计算公式为:;其中,表示第个账号的第种特征数据对应的调整后的特征范围跨度;表示第个账号的第种特征数据对应的特征范围跨度;表示第个账号的第种特征数据对应的分量值的邻近分量值的数目;表示所有账号的总个数;表示第个账号对应的特征数据的种类数;表示取最大值函数;表示反正切函数;表示圆周率
。3.
根据权利要求1所述的一种人工智能的数据智能处理方法,其特征在于,确定每个账号对应的所有邻近账号中每种邻近账号的优选程度,包括:确定第个账号的第种特征数据对应的分量值分别与第个账号的第种特征数据对应的每个邻近账号的第种特征数据对应的分量值的差值绝对值,从而得到分量差异值,并计算所述分量差异值与第个账号的第种特征数据对应的调整后的特征范围跨度的比值;根据第个账号对应的所有邻近账号中同一种邻近账号对应的所有比值
、
第个账号对应的所有邻近账号中同一种邻近账号的出现次数以及每个账号的特征数据的种类数,确定第个账号对应的所有邻近账号中每种邻近账号的优选程度
。4.
根据权利要求3所述的一种人工智能的数据智能处理方法,其特征在于,确定第个账号对应的所有邻近账号中每种邻近账号的优选程度,对应的计算公式为:;其中,表示第个账号对应
...
【专利技术属性】
技术研发人员:李洪健,罗鑫凯,王新勇,杨笑,孙丕超,
申请(专利权)人:中译文娱科技青岛有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。