本发明专利技术提供了一种基于隐马尔克夫模型(Hidden Markov Model,HMM)的用户查询风险评估和隐私保护方法。通过对用户查询的特征进行分析,将分析得到的指标将其作为HMM的量化指标,建立用户查询风险评估模型;初始化模型参数;根据可见状态序列以及系统的真实状态,对模型进行训练;最后当用户查询,对用户查询风险计算以及风险等级评估。本发明专利技术利用HMM模型对用户查询安全风险进行评价,考虑各阶段的动态性,实时反应风险状态。针对高风险查询采用高强度的差分噪音来降低用户查询风险,针对低风险查询采用低强度的差分噪音进行保护,不仅有效解决了用户查询时隐私泄露的风险,而且节约了隐私保护成本。同时该模型具有很强的扩展性,可以应用到各种在线查询服务中。
【技术实现步骤摘要】
基于HMM的用户查询风险评估和隐私保护方法
本专利技术涉及一种基于HMM模型的用户查询风险评估和隐私保护方法,属于WEB数据查询、隐私保护领域。
技术介绍
近年来,在线查询服务为人们信息检索中带来极大的便利,但也随之带来了各种隐私泄露问题。用户在使用各种在线查询服务时,留下一系列包含个人信息、兴趣爱好和查询意图的数字痕迹,这些数字痕迹中包含着用户丰富的敏感信息,一旦泄露会对用户造成严重的危害。如攻击者(不可信服务提供商或第三方营销商)通过分析用户数据痕迹来推断用户真实查询意图。推断用户正在寻找什么,何时以及在什么情况下用户发起查询操作,以便提供更多相关和定制的诱导内容或广告来诱导用户盲目消费或者是欺骗用户。这使得用户无法控制以滥用其个人信息的“好奇”系统进行有针对性的广告和数字歧视,引起了公众对隐私侵权的严重关注。在用户查询中,传统的隐私保护的方法主要集中在隐私的可识别方面,即敏感信息删除,安全通信,匿名查询和数据混淆来改善用户在线查询时的隐私保护问题。虽然已经做了一些工作,但依旧存在严重的隐私泄露问题,如加密成本高,灵活性差等问题使得以上方法没有得到广泛的应用。现有的隐私保护方法主要有查询混淆和覆盖查询的解决方案。查询混淆是通过生成虚拟查询与用户的真实查询一起发送到服务提供端,以防止对搜索服务方对用户查询的准确推断。覆盖查询是通过采用潜在语义索引的方法来生成掩盖查询以隐藏用户的原始查询。但是,以上方法中均忽略了用户查询时查询风险高低区分的问题。在实际查询场景中,用户的每次查询并不都涉及到隐私,即每次查询并不都是高风险的,如果采用相同的隐私保护方法很容易造成隐私保护强度过高导致用户查询准确性低以及查询效率低等问题。HMM模型是序列数据处理和统计学习的一种重要概率模型,具有建模简单、数据计算量小、运行速度快、识别率高等特点。HMM已广泛应用于模式识别、词性标注和信息提取方面,很好的结合了定性与定量的方法,具有相对准确的评估准确度。
技术实现思路
本专利技术的目的是:将HMM应用在用户查询风险评估和隐私保护中,有效地解决用户在查询时查询内容风险高低的判断,并对高风险查询用户采用隐私保护策略保护,防止用户查询时导致用户隐私泄露的问题。为了达到上述目的,本专利技术的技术方案是提供了一种基于HMM的用户查询风险评估和隐私保护方法,其特征在于,包括以下步骤:步骤1、用户发起查询请求,根据用户查询请求中所包含的查询内容进行查询特征分析,获得用户查询特征;步骤2、基于用户查询特征,建立HMM模型;步骤3、初始化模型参数,根据HMM模型的可见状态序列及系统的真实状态,对HMM模型进行训练;步骤4、利用训练好的HMM模型对用户实时发起的查询请求所包含的查询内容进行风险评估和风险值计算,确定查询风险等级;步骤5、针对不同的查询风险等级,采用不同的隐私保护措施:当查询风险等级为高风险查询时,采用高强度的差分隐私噪音降低查询风险;当查询风险等级为低风险查询时,采用低强度的差分隐私噪音实现保护;步骤6、将隐私保护后的结果发送给服务提供商,服务提供商根据用户的查询需求进行结果查询;步骤7、服务提供商将查询到的结果进行返回,在用户端进行结果排名的操作,再次进行隐私保护。优选地,步骤1中,用户每次发起查询请求时,在用户查询时存在递进和共现特征。优选地,步骤2所述建立HMM模型的方法包括以下步骤:步骤201、确定用户查询时的可见状态;步骤202、建立隐马尔可夫五元组参数模型,包括状态转移概率矩阵、观测向量的概率矩阵、最初状态概率分布矢量、状态数和观测符号数。优选地,步骤201中,所述可见状态包含系统的所有信息,并且在当前状态下的观察是独立的,而且用户的查询内容仅与前一个状态有关。优选地,步骤202中,每个环节的安全状态概率分布就是下一环节的初始状态概率分布。优选地,步骤4中,设用户查询序列为X=(x1,x2,...,xn),其中xi代表第i个节点,且每个节点都存在着一个转移概率P,那么,在一个隐马尔可夫模型M上,一个查询序列X被观测的概率为在所有可能路径上的概率之和:式中,P(X|M)表示用户查询序列和观测结果的联合分布,q1,...,qn表示观测结果节点,Ql表示观测结果节点集合,P(qk-1→qk)表示从qk-1到qk的转移概率,P(xk|qk)表示用于经过xk查询了qk的概率。优选地,步骤5为不同的查询风险采用不同的隐私保护方法,当用户的查询为高风险查询时,采用高强度的差分隐私噪音来降低用户查询的风险。当用户的查询为低风险查询时,采用低强度的差分随机噪音进行保护。本专利技术具有如下优点:(1)本专利技术提出一种动态的评估用户查询风险的方法,与现有静态风险评估方法不同,本专利技术动态的对用户查询内容所产生的威胁进行评估,且查询风险大小会随着用户查询时间、查询次数等的变化而不同。(2)本专利技术在隐私保护中,根据风险高低的不同采用不同强度的隐私保护策略进行保护,解决了现有隐私保护方法中未区分用户查询风险的高低,采用相同的隐私保护策略的缺陷;(3)相对于现有技术,本专利技术利用HMM模型对用户查询风险进行评估,考虑各个阶段的动态性,实时得出用户查询风险状态,该风险评估模型具有很强的扩展性,可以应用到在线服务的各种领域。附图说明图1为基于HMM模型的用户查询风险评估和隐私保护方法流程图;图2为基于HMM模型的用户查询风险评估和隐私保护方法模型。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。1、用户查询模型概述:如图2所示,为一种基于HMM模型的用户查询风险评估和隐私保护方法模型,整个过程包括三个阶段,即用户查询及风险评估,查询隐私保护和查询结果返回及重排名。(1)用户查询风险评估阶段,用户通过用户端输入自己需要查询的关键字或内容,客户端(隐私保护部分)对用户查询进行风险评估,确定出用户查询中所涉及的风险高低;(2)查询隐私保护阶段,针对高风险查询采用高强度的隐私保护策略来降低用户查询风险,针对低分险采用添加随机差分噪音的方式,将隐私保护后的用户查询通过internet传输到SP中;(3)查询结果返回及重排名阶段,SP根据用户的查询关键字进行内容检索,将查询结果进行返回。为防止不可信SP对用户点击进行分析,在用户端结合用户原始查询(为用户的真实查询)对用户新查询(隐私保护后的查询)结果进行重排名操作,最终用户获取到真实的查询结果。2、隐马尔克夫模型(HMM)概述:HMM是在马尔科夫链的基础上发展起来的。在HMM中观察到的事件是状态的随机函数,因此该模型是一个双重随机过程,即一个观察状态,一个隐藏状态。HMM已广泛应用于模式识别、词性标注和信息提取方面。3、HMM定义及分析:为更清楚描述,可以将HMM以5元祖的形式进行表示,如<N,M,π,A,B>,其中N为模型中的状态数,状态集可表示为S={S1,...,SN};M为观测符号数,观测结果集可以表示为O={O1,...,OM},观测结果表示每个状态可能输出的结果数目;π代表初始分布状态;A为状态转移概率本文档来自技高网...
【技术保护点】
1.一种基于HMM的用户查询风险评估和隐私保护方法,其特征在于,包括以下步骤:步骤1、用户发起查询请求,根据用户查询请求中所包含的查询内容进行查询特征分析,获得用户查询特征;步骤2、基于用户查询特征,建立HMM模型;步骤3、初始化模型参数,根据HMM模型的可见状态序列及系统的真实状态,对HMM模型进行训练;步骤4、利用训练好的HMM模型对用户实时发起的查询请求所包含的查询内容进行风险评估和风险值计算,确定查询风险等级;步骤5、针对不同的查询风险等级,采用不同的隐私保护措施:当查询风险等级为高风险查询时,采用高强度的差分隐私噪音降低查询风险;当查询风险等级为低风险查询时,采用低强度的差分隐私噪音实现保护;步骤6、将隐私保护后的结果发送给服务提供商,服务提供商根据用户的查询需求进行结果查询;步骤7、服务提供商将查询到的结果进行返回,在用户端进行结果排名的操作,再次进行隐私保护。
【技术特征摘要】
1.一种基于HMM的用户查询风险评估和隐私保护方法,其特征在于,包括以下步骤:步骤1、用户发起查询请求,根据用户查询请求中所包含的查询内容进行查询特征分析,获得用户查询特征;步骤2、基于用户查询特征,建立HMM模型;步骤3、初始化模型参数,根据HMM模型的可见状态序列及系统的真实状态,对HMM模型进行训练;步骤4、利用训练好的HMM模型对用户实时发起的查询请求所包含的查询内容进行风险评估和风险值计算,确定查询风险等级;步骤5、针对不同的查询风险等级,采用不同的隐私保护措施:当查询风险等级为高风险查询时,采用高强度的差分隐私噪音降低查询风险;当查询风险等级为低风险查询时,采用低强度的差分隐私噪音实现保护;步骤6、将隐私保护后的结果发送给服务提供商,服务提供商根据用户的查询需求进行结果查询;步骤7、服务提供商将查询到的结果进行返回,在用户端进行结果排名的操作,再次进行隐私保护。2.根据权利要求1所述的一种基于HMM的用户查询风险评估和隐私保护方法,其特征在于,步骤1中,用户每次发起查询请求时,在用户查询时存在递进和共现特征。3.根据权利要求1所述的一种基于HMM模型的用户查询风险评估和隐私保护方法,其特征在于,步骤2所述建立HMM模型的方法包括以下步骤:步骤201、确定用户查询时的可见状态;步骤202、建立隐马尔可夫五元组参数模型,包括状态转移概率矩阵、观测向量的概率矩...
【专利技术属性】
技术研发人员:徐光伟,马永东,王文涛,史春红,赖淼麟,
申请(专利权)人:东华大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。