基于HMM的用户查询风险评估和隐私保护方法技术

技术编号：21432968 阅读：30 留言：0更新日期：2019-06-22 12:09

本发明专利技术提供了一种基于隐马尔克夫模型(Hidden Markov Model，HMM)的用户查询风险评估和隐私保护方法。通过对用户查询的特征进行分析，将分析得到的指标将其作为HMM的量化指标，建立用户查询风险评估模型；初始化模型参数；根据可见状态序列以及系统的真实状态，对模型进行训练；最后当用户查询，对用户查询风险计算以及风险等级评估。本发明专利技术利用HMM模型对用户查询安全风险进行评价，考虑各阶段的动态性，实时反应风险状态。针对高风险查询采用高强度的差分噪音来降低用户查询风险，针对低风险查询采用低强度的差分噪音进行保护，不仅有效解决了用户查询时隐私泄露的风险，而且节约了隐私保护成本。同时该模型具有很强的扩展性，可以应用到各种在线查询服务中。

全部详细技术资料下载

【技术实现步骤摘要】
基于HMM的用户查询风险评估和隐私保护方法
本专利技术涉及一种基于HMM模型的用户查询风险评估和隐私保护方法，属于WEB数据查询、隐私保护领域。
技术介绍
近年来，在线查询服务为人们信息检索中带来极大的便利，但也随之带来了各种隐私泄露问题。用户在使用各种在线查询服务时，留下一系列包含个人信息、兴趣爱好和查询意图的数字痕迹，这些数字痕迹中包含着用户丰富的敏感信息，一旦泄露会对用户造成严重的危害。如攻击者(不可信服务提供商或第三方营销商)通过分析用户数据痕迹来推断用户真实查询意图。推断用户正在寻找什么，何时以及在什么情况下用户发起查询操作，以便提供更多相关和定制的诱导内容或广告来诱导用户盲目消费或者是欺骗用户。这使得用户无法控制以滥用其个人信息的“好奇”系统进行有针对性的广告和数字歧视，引起了公众对隐私侵权的严重关注。在用户查询中，传统的隐私保护的方法主要集中在隐私的可识别方面，即敏感信息删除，安全通信，匿名查询和数据混淆来改善用户在线查询时的隐私保护问题。虽然已经做了一些工作，但依旧存在严重的隐私泄露问题，如加密成本高，灵活性差等问题使得以上方法没有得到广泛的应用。现有的隐私保护方法主要有查询混淆和覆盖查询的解决方案。查询混淆是通过生成虚拟查询与用户的真实查询一起发送到服务提供端，以防止对搜索服务方对用户查询的准确推断。覆盖查询是通过采用潜在语义索引的方法来生成掩盖查询以隐藏用户的原始查询。但是，以上方法中均忽略了用户查询时查询风险高低区分的问题。在实际查询场景中，用户的每次查询并不都涉及到隐私，即每次查询并不都是高风险的，如果采用相同的隐私保护方法很容易造...

【技术保护点】
1.一种基于HMM的用户查询风险评估和隐私保护方法，其特征在于，包括以下步骤：步骤1、用户发起查询请求，根据用户查询请求中所包含的查询内容进行查询特征分析，获得用户查询特征；步骤2、基于用户查询特征，建立HMM模型；步骤3、初始化模型参数，根据HMM模型的可见状态序列及系统的真实状态，对HMM模型进行训练；步骤4、利用训练好的HMM模型对用户实时发起的查询请求所包含的查询内容进行风险评估和风险值计算，确定查询风险等级；步骤5、针对不同的查询风险等级，采用不同的隐私保护措施：当查询风险等级为高风险查询时，采用高强度的差分隐私噪音降低查询风险；当查询风险等级为低风险查询时，采用低强度的差分隐私噪音实现保护；步骤6、将隐私保护后的结果发送给服务提供商，服务提供商根据用户的查询需求进行结果查询；步骤7、服务提供商将查询到的结果进行返回，在用户端进行结果排名的操作，再次进行隐私保护。

【技术特征摘要】
1.一种基于HMM的用户查询风险评估和隐私保护方法，其特征在于，包括以下步骤：步骤1、用户发起查询请求，根据用户查询请求中所包含的查询内容进行查询特征分析，获得用户查询特征；步骤2、基于用户查询特征，建立HMM模型；步骤3、初始化模型参数，根据HMM模型的可见状态序列及系统的真实状态，对HMM模型进行训练；步骤4、利用训练好的HMM模型对用户实时发起的查询请求所包含的查询内容进行风险评估和风险值计算，确定查询风险等级；步骤5、针对不同的查询风险等级，采用不同的隐私保护措施：当查询风险等级为高风险查询时，采用高强度的差分隐私噪音降低查询风险；当查询风险等级为低风险查询时，采用低强度的差分隐私噪音实现保护；步骤6、将隐私保护后的结果发送给服务提供商，服务提供商根据用户的查询需求进行结果查询；步骤7、服务提供商将查询到的结果进行返回，在用户端进行结果排名的操作，再次进行隐私保护。2.根据权利要求1所述的一种基于HMM的用户查询风险评估和隐私保护方法，其特征在于，步骤1中，用户每次发起查询请求时，在用户查询时存在递进和共现特征。3.根据权利要求1所述的一种基于HMM模型的用户查询风险评估和隐私保护方法，其特征在于，步骤2所述建立HMM模型的方法包括以下步骤：步骤201、确定用户查询时的可见状态；步骤202、建立隐马尔可夫五元组参数模型，包括状态转移概率矩阵、观测向量的概率矩...

【专利技术属性】
技术研发人员：徐光伟，马永东，王文涛，史春红，赖淼麟，
申请(专利权)人：东华大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人