当前位置: 首页 > 专利查询>五邑大学专利>正文

一种身份欺骗检测方法及其系统、装置、存储介质制造方法及图纸

技术编号:22330504 阅读:47 留言:0更新日期:2019-10-19 12:21
本发明专利技术公开了一种身份欺骗检测方法及其系统、装置、存储介质,由身份欺骗检测机器学习模型和身份欺骗检测评分模型组成。身份欺骗检测机器学习模型采用监督机器学习来识别SMP上与身份相关的信息的适当属性和特征,同时计算这些属性和特征的准确性和熵信息,确定身份是否具有欺骗性。身份欺骗检测评分模型使用熵信息来确定属性和特征的重要性。然后将此信息用作线性公式中的加权变量,以确定身份是否具有欺骗性。本发明专利技术通过智能检测欺骗身份的账户,将恶意用户在SMP上利用的身份欺骗的网络风险降至最低,不仅可以检测,同时还可以解释感知欺骗性。

【技术实现步骤摘要】
一种身份欺骗检测方法及其系统、装置、存储介质
本专利技术涉及网络安全
,尤其是一种基于监督机器学习在社交媒体平台上的身份欺骗检测方法及其系统、装置、存储介质。
技术介绍
目前网络威胁十分普遍,社交媒体平台(SocialMediaPlatform,SMP)是网络攻击的推动者。SMP很容易受到网络威胁,因为它们在没有任何权威验证或验证参与者的情况下在个人之间建立信任。网络犯罪可能会产生严重后果。过去的研究人员利用在SMP上发现的属性来构建可以检测到身份欺骗的新特征。比如可以通过发现性别和为人类选择的预期背景颜色的不一致之处,审查身份欺骗特征;地理位置更新时间存在统计不一致之处,有助于发现欺骗性账户;还可以从内容中使用的语言和当地文本中得出性别和位置等特征。其他的一些特征,如配置文件图像是否真实地代表用户,名称等属性的相似性,以及给定的用户的情绪状态等,也被认为对检测身份欺骗有潜在的有用价值。此外,研究人员还提出了在SMP上检测身份欺骗的各种技术。这些技术包括过滤、规则、监督机器学习、半监督机器学习、加强学习和无监督机器学习,这与目前的研究有协同作用。因此,以往对机器人检测的研究被用来确定合适的监督机器学习算法,供考虑的研究使用。在机器学习中,没有通用算法的性能预期超过其余算法,也称为"没有免费午餐"定理。因此,需要在同一问题上测试各种算法。在机器人检测研究中发现的八个机器学习模型,被应用于这项研究中,以检测欺骗性的人类。然而,监督机器学习模型输出的结果存在技术缺陷,这些结果很少是可以解释和直观的。因此,如何将恶意用户在SMP上利用的身份欺骗的网络风险降至最低,是网络安全领域亟待解决的技术问题。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种身份欺骗检测方法及其系统、装置、存储介质,该方法由身份欺骗检测机器学习模型和身份欺骗检测评分模型两个子模型组成,通过智能检测欺骗身份的账户,将恶意用户在SMP上利用的身份欺骗的网络风险降至最低。本专利技术解决其问题所采用的技术方案是:第一方面,本专利技术实施例提出了一种身份欺骗检测方法,包括身份欺骗检测机器学习模型和身份欺骗检测评分模型,通过身份欺骗检测机器学习模型来识别社交媒体平台上与身份相关的信息属性和信息特征,计算信息属性和信息特征的准确性以及熵信息,确定身份是否具有欺骗性;通过身份欺骗检测评分模型来使用熵信息来确定信息属性和信息特征的重要性,将熵信息用作线性公式中的加权变量,以确定身份是否具有欺骗性。进一步,所述身份欺骗检测机器学习模型,包括如下步骤:S1,假设SMP是一个社交媒体平台,A={a1,a2,…,an}是SMP属性的子集,A=A1∪A2,其中,A1={a1,a2,…,an}是随机抽取的训练数据集,A2={a1,a2,…,an}是随机抽取的测试数据集,A1与A2在A中所占比例为3:1;S2,设F={f1,f2,…,fm}是一组特征,m是特征的数量,其中,fi∈A∨fi=f(aj,…,ak),j≥1,k≤n;S3,RF={h(x|θ1),h(x|θ2),…,h(x|θt)},其中,RF是随机森林算法,t是决策树数量,h(x|θi)是其中的单个决策树,x是给定θi的A1∨F的值,1≤i≤t;其中,S3中的随机森林算法,对于最终分类,给定输入x,每个决策树h(x|θi)对最受欢迎的输出投票,获得最多选票的类别获胜,没有迹象表明哪个h(x|θi)的选票获胜,并且每个输入的投票也不同;S4,设其中,RFresults是随机森林的结果,f1i是一个F1值,ei是一个熵值;其中,S4中熵值表明在为训练机器学习模型添加或丢弃输入时获得或丢失了多少信息,指的是不确定性;S5,设A3={ai∨fi:根据f(fi,ei)}产生的集合中的最佳值进行选择},其中,1<i≤n,S6,设Mi是Up的最终身份欺骗分数(IDS),其中,Up是SMP的一个用户,Mi=RFp={h(x|θ1),h(x|θ2),…,h(x|θt)},xp是Up的{ai∨fi}∈A3的值。进一步,所述身份欺骗检测评分模型,包括如下步骤:T1,设Si是Up的身份欺骗分数(IDS),其中,m是A3中的元素数量{ai∨fi},f(w,xp)=w|xp|,w∈[0,100],xp是Up的{ai∨fi}∈A3的值,w=ei∈A3;需要指出的是,T1使用了身份欺骗检测机器学习模型的输出;T2,如果Si~Mi,则w和xp用于解释Up的Mi的结果;需要指出的是,T2用于解释为什么SMP用户的身份被认为是欺骗性的或不被视为欺骗性的。第二方面,本专利技术实施例还提出了一种身份欺骗检测系统,包括:身份欺骗检测机器学习单元,用于识别社交媒体平台上与身份相关的信息属性和信息特征,计算信息属性和信息特征的准确性以及熵信息,确定身份是否具有欺骗性;身份欺骗检测评分单元,用于使用熵信息来确定信息属性和信息特征的重要性,将熵信息用作线性公式中的加权变量,以确定身份是否具有欺骗性。第三方面,本专利技术实施例还提出了一种身份欺骗检测装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术第一方面所述的方法。第四方面,本专利技术实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行本专利技术第一方面所述的方法。本专利技术实施例中提供的一个或多个技术方案,至少具有如下有益效果:本专利技术提供的一种身份欺骗检测方法及其系统、装置、存储介质,该方法由身份欺骗检测机器学习模型(IdentityDeceptionDetectionMachineLearningModel,IDDMLM)和身份欺骗检测评分模型(IdentityDeceptionDetectionScoreModel,IDDSM)组成。IDDMLM采用监督机器学习来识别SMP上与身份相关的信息的适当属性和特征,同时计算这些属性和特征的准确性和熵信息,确定身份是否具有欺骗性。IDDSM使用IDDMLM的输出,这些输出包括有关属性和特征的准确性和熵相关信息。IDDSM使用熵信息来确定属性和特征的重要性。然后将此信息用作线性公式中的加权变量,以确定身份是否具有欺骗性。本专利技术通过智能检测欺骗身份的账户,将恶意用户在SMP上利用的身份欺骗的网络风险降至最低,对网络安全领域具有重要意义。附图说明下面结合附图和实例对本专利技术作进一步说明。图1是本专利技术第一实施例中身份欺骗检测方法的流程图;图2是本专利技术第二实施例中身份欺骗检测系统的结构简图;图3是本专利技术第三实施例中身份欺骗检测装置的结构简图。具体实施方式本部分将详细描述本专利技术的具体实施例,本专利技术之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本专利技术的每个技术特征和整体技术方案,但其不能理解为对本专利技术保护范围的限制。在本专利技术的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定本文档来自技高网
...

【技术保护点】
1.一种身份欺骗检测方法,其特征在于:包括身份欺骗检测机器学习模型和身份欺骗检测评分模型,通过身份欺骗检测机器学习模型来识别社交媒体平台上与身份相关的信息属性和信息特征,计算信息属性和信息特征的准确性以及熵信息,确定身份是否具有欺骗性;通过身份欺骗检测评分模型来使用熵信息来确定信息属性和信息特征的重要性,将熵信息用作线性公式中的加权变量,以确定身份是否具有欺骗性。

【技术特征摘要】
1.一种身份欺骗检测方法,其特征在于:包括身份欺骗检测机器学习模型和身份欺骗检测评分模型,通过身份欺骗检测机器学习模型来识别社交媒体平台上与身份相关的信息属性和信息特征,计算信息属性和信息特征的准确性以及熵信息,确定身份是否具有欺骗性;通过身份欺骗检测评分模型来使用熵信息来确定信息属性和信息特征的重要性,将熵信息用作线性公式中的加权变量,以确定身份是否具有欺骗性。2.根据权利要求1所述的一种身份欺骗检测方法,其特征在于,所述身份欺骗检测机器学习模型,包括如下步骤:S1,假设SMP是一个社交媒体平台,A={a1,a2,…,an}是SMP属性的子集,A=A1∪A2,其中,A1={a1,a2,…,an}是随机抽取的训练数据集,A2={a1,a2,…,an}是随机抽取的测试数据集,A1与A2在A中所占比例为3:1;S2,设F={f1,f2,…,fm}是一组特征,m是特征的数量,其中,fi∈A∨fi=f(aj,…,ak),j≥1,k≤n;S3,RF={h(x|θ1),h(x|θ2),…,h(x|θt)},其中,RF是随机森林算法,t是决策树数量,h(x|θi)是其中的单个决策树,x是给定θi的A1∨F的值,1≤i≤t;S4,设其中,RFresults是随机森林的结果,f1i是一个F1值,ei是一个熵值;S5,设A3={ai∨fi:根据f(fi,ei)}产生的集合中的最佳值进行选择},其中,1<i≤n,S6,设Mi是Up的最终...

【专利技术属性】
技术研发人员:邱天李千目龙华秋刘耀宗容振邦
申请(专利权)人:五邑大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1