当前位置: 首页 > 专利查询>广州大学专利>正文

一种恶意信息检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39262158 阅读:9 留言:0更新日期:2023-10-30 12:15
本发明专利技术公开了一种恶意信息检测方法、装置、电子设备及存储介质,本发明专利技术方法基于预设采集条件,获取原始数据;对原始数据进行预处理,转化得到评分矩阵;基于评分矩阵,确定目标特征;对目标特征进行加权聚合,根据加权聚合的特征值对原始数据进行过滤,得到原始数据集;根据原始数据集确定目标用户,通过随机丢弃的方式将原始数据的评分数据集划分为预设数据的目标数据集,进而分别对各个数据集进行隐语义处理,得到目标用户的评分向量;基于目标用户的评分向量,确定各个目标数据集之间的距离差值;进而根据距离差值确定各个目标数据集的恶意信息的检测结果;本发明专利技术实施例能够高效准确实现恶意信息检测,可广泛应用于计算机技术领域。技术领域。技术领域。

【技术实现步骤摘要】
一种恶意信息检测方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,尤其是一种恶意信息检测方法、装置、电子设备及存储介质。

技术介绍

[0002]推荐系统作为个性化服务的基础技术之一,广泛应用于电商网站、电影音乐、社交网络等领域。不过,当前推荐系统的研究在安全方面的考虑尚不足够。研究表明,推荐算法很容易受到数据投毒攻击的影响,攻击者会通过对人工智能程序采集的一系列数据和网站展开系统性攻击,人为地向推荐系统注入大量的虚假评分,故意扰乱数据分布,使得人工智能程序所抓取的数据出现偏差。这时,攻击者就很容易通过伪装普通人员向模型传递错误或是诱导性信息,从而使得模型向攻击者所希望的方向倾斜,达到操纵推荐结果的目的。推荐算法一旦受到投毒攻击,不仅会造成企业和用户的财产损失。因此对推荐系统中投毒攻击的研究非常必要。
[0003]当前针对推荐系统的投毒方法如下几种,如通过欺诈攻击如:随机攻击,平均攻击,流行性攻击,分段攻击等;还有针对特定推荐算法的攻击,如面向近邻推荐模型的数据投毒技术有基于近邻的协同过滤和UNAttack攻击模型,面向矩阵分解推荐模型的数据投毒技术有矩阵分解算法(协调过滤的优化)和基于机制分解的数据投毒攻击等,面向深度推荐系统的数据投毒技术有基于神经网络的协调过滤方法的通用框架(NCF)和基于深度推荐系统的数据投毒攻击。但是当前方法大多将整个数据集当做一个整体来进行离群检测,检测效果较差。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种恶意信息检测方法、装置、电子设备及存储介质,能够高效进行恶意信息检测。
[0005]一方面,本专利技术的实施例提供了一种恶意信息检测方法,包括:
[0006]基于预设采集条件,获取原始数据;其中,原始数据包括目标对象的资料信息、行为数据和物品评分;
[0007]对原始数据进行预处理,转化得到评分矩阵;
[0008]基于评分矩阵,确定目标特征;对目标特征进行加权聚合,根据加权聚合的特征值对原始数据进行过滤,得到原始数据集;其中,目标特征包括评分矩阵的个体偏差特征、密度变化特征、新物品评分分布特征和变化率特征;
[0009]根据原始数据集确定目标用户,通过随机丢弃的方式将原始数据的评分数据集划分为预设数据的目标数据集,进而分别对各个数据集进行隐语义处理,得到目标用户的评分向量;其中,评分数据集基于原始数据中所有目标对象的物品评分确定;随机丢弃的方式的丢弃对象不包括目标用户的评分数据;
[0010]基于目标用户的评分向量,确定各个目标数据集之间的距离差值;进而根据距离
差值确定各个目标数据集的恶意信息的检测结果;其中,距离差值包括欧式距离差值和余弦距离差值。
[0011]可选地,基于预设采集条件,获取原始数据,包括:
[0012]基于预设采集条件,从多个数据源获取目标对象的资料信息和物品评分;
[0013]其中,预设采集条件包括提取预设数据量、符合预设数据质量评分以及符合预设数据类型;
[0014]根据物品评分对应物品的属性信息以及评分分布,确定目标对象的物品偏好,得到目标对象的行为数据。
[0015]可选地,对原始数据进行预处理,转化得到评分矩阵,包括:
[0016]对原始数据中的异常数据进行预处理;
[0017]其中,异常数据包括缺失值、重复数据和错误数据,预处理包括对缺失值的填充处理、对重复数据的删除处理和对错误数据的修正或标记处理;
[0018]将预处理后的原始数据转换得到评分矩阵。
[0019]可选地,基于评分矩阵,确定目标特征,包括:
[0020]根据评分矩阵中各目标对象所有评分的平均值和标准差与评分矩阵的总体评分的平均值和标准差,结合偏差阈值确定个体偏差特征;
[0021]根据评分矩阵各阶段的矩阵密度,确定密度变化特征;
[0022]根据评分矩阵中的新物品评分分布相对于所有物品评分分布的变化率,确定新物品评分分布特征;
[0023]根据评分矩阵各阶段的平均评分,确定变化率特征。
[0024]可选地,根据原始数据集确定目标用户,通过随机丢弃的方式将原始数据的评分数据集划分为预设数据的目标数据集,包括:
[0025]将评分数据集划分为预设数量的初始数据集,随机丢弃其中一份初始数据集,并合并剩下的初始数据集得到目标数据集;进而在评分数据集重复迭代随机丢弃的方式,直至得到预设数量的不同的目标数据集;其中,各目标数据集相较于评分数据集丢弃的数据部分互不相同。
[0026]可选地,基于目标用户的评分向量,确定各个目标数据集之间的距离差值,包括:
[0027]基于目标用户在不同的目标数据集中的评分向量,通过欧式距离公式计算得到欧式距离,并通过余弦距离公式计算得到余弦距离;
[0028]其中,欧式距离公式的表达式为:
[0029][0030]式中,d
eu
(x,y)表示评分向量x和评分向量y之间的欧氏距离,x
i
表示评分向量x的第i个坐标值,y
i
表示评分向量y的第i个坐标值,n表示评分向量x和评分向量y的坐标数量;
[0031]余弦距离公式的表达式为:
[0032][0033]d
cosine
(x,y)=1

cos(x,y)
[0034]式中,d
cosine
(x,y)表示评分向量x和评分向量y之间的余弦距离,cos(x,y)表示评分向量x和评分向量y之间的余弦相似度,x
i
表示评分向量x的第i个坐标值,y
i
表示评分向量y的第i个坐标值;
[0035]根据欧式距离和余弦距离,确定各个目标数据集之间的欧式距离差值和余弦距离差值。
[0036]可选地,根据距离差值确定各个目标数据集的恶意信息的检测结果,包括:
[0037]当两个目标数据集的距离差值大于预设阈值,分别比对两个目标数据集与剩余目标数据集之间的距离差值,进而确定各个目标数据集的恶意信息的检测结果;
[0038]其中,两个目标数据集之间包含的恶意信息的数据差距与距离差值正相关。
[0039]另一方面,本专利技术的实施例提供了一种恶意信息检测装置,包括:
[0040]第一模块,用于基于预设采集条件,获取原始数据;其中,原始数据包括目标对象的资料信息、行为数据和物品评分;
[0041]第二模块,用于对原始数据进行预处理,转化得到评分矩阵;
[0042]第三模块,用于基于评分矩阵,确定目标特征;对目标特征进行加权聚合,根据加权聚合的特征值对原始数据进行过滤,得到原始数据集;其中,目标特征包括评分矩阵的个体偏差特征、密度变化特征、新物品评分分布特征和变化率特征;
[0043]第四模块,用于根据原始数据集确定目标用户,通过随机丢弃的方式将原始数据的评分数据集划分为预设数据的目标数据集,进而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种恶意信息检测方法,其特征在于,包括:基于预设采集条件,获取原始数据;其中,所述原始数据包括目标对象的资料信息、行为数据和物品评分;对所述原始数据进行预处理,转化得到评分矩阵;基于所述评分矩阵,确定目标特征;对所述目标特征进行加权聚合,根据所述加权聚合的特征值对所述原始数据进行过滤,得到原始数据集;其中,所述目标特征包括所述评分矩阵的个体偏差特征、密度变化特征、新物品评分分布特征和变化率特征;根据所述原始数据集确定目标用户,通过随机丢弃的方式将所述原始数据的评分数据集划分为预设数据的目标数据集,进而分别对各个所述数据集进行隐语义处理,得到所述目标用户的评分向量;其中,评分数据集基于所述原始数据中所有目标对象的物品评分确定;所述随机丢弃的方式的丢弃对象不包括所述目标用户的评分数据;基于所述目标用户的所述评分向量,确定各个所述目标数据集之间的距离差值;进而根据所述距离差值确定各个所述目标数据集的恶意信息的检测结果;其中,所述距离差值包括欧式距离差值和余弦距离差值。2.根据权利要求1所述的一种恶意信息检测方法,其特征在于,所述基于预设采集条件,获取原始数据,包括:基于预设采集条件,从多个数据源获取所述目标对象的资料信息和物品评分;其中,所述预设采集条件包括提取预设数据量、符合预设数据质量评分以及符合预设数据类型;根据所述物品评分对应物品的属性信息以及评分分布,确定所述目标对象的物品偏好,得到所述目标对象的行为数据。3.根据权利要求1所述的一种恶意信息检测方法,其特征在于,所述对所述原始数据进行预处理,转化得到评分矩阵,包括:对所述原始数据中的异常数据进行预处理;其中,异常数据包括缺失值、重复数据和错误数据,所述预处理包括对所述缺失值的填充处理、对所述重复数据的删除处理和对所述错误数据的修正或标记处理;将所述预处理后的原始数据转换得到评分矩阵。4.根据权利要求1所述的一种恶意信息检测方法,其特征在于,所述基于所述评分矩阵,确定目标特征,包括:根据所述评分矩阵中各所述目标对象所有评分的平均值和标准差与所述评分矩阵的总体评分的平均值和标准差,结合偏差阈值确定所述个体偏差特征;根据所述评分矩阵各阶段的矩阵密度,确定所述密度变化特征;根据所述评分矩阵中的新物品评分分布相对于所有物品评分分布的变化率,确定所述新物品评分分布特征;根据所述评分矩阵各阶段的平均评分,确定所述变化率特征。5.根据权利要求1所述的一种恶意信息检测方法,其特征在于,所述根据所述原始数据集确定目标用户,通过随机丢弃的方式将所述原始数据的评分数据集划分为预设数据的目标数据集,包括:将所述评分数据集划分为预设数量的初始数据集,随机丢弃其中一份初始数据集,并
合并剩下的所述初始数据集得到所述目标数据集;进而在所述评分数据集重复迭代所述随机丢弃的方式,直至得到所述预设数量的不同的所述目标数据集;其中,各所述目标数据集相较于所述评分数据集丢弃的数据部分互不相同。6.根据权利要求1所述的一种恶意信息检测方法,其特征在于,所述基于所述目标用户的所述评分向量,...

【专利技术属性】
技术研发人员:李默涵连雨昕朱锦鹏林景怡万佳文孙彦斌田志宏
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1