一种面向图书关键词搜索的用户主题隐私保护方法及系统技术方案

技术编号:22135370 阅读:18 留言:0更新日期:2019-09-18 09:04
本发明专利技术公开了一种面向图书关键词搜索的用户主题隐私保护方法及系统。所述方法包括(1)获取当前用户查询与用户历史查询序列合成用户查询序列;(2)对用户查询序列构造伪图书查询序列使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;(3)执行伪查询序获得中间图书记录集,在中间图书记录集上由可信端执行当前用户查询,获得结果图书记录集返回给用户。所述系统包括运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:用户查询获取模块、伪查询构造模块、以及结果筛选模块。本发明专利技术通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,有效保护用户主题隐私安全。

A Method and System of User Theme Privacy Protection for Book Keyword Search

【技术实现步骤摘要】
一种面向图书关键词搜索的用户主题隐私保护方法及系统
本专利技术属于隐私保护领域,更具体地,涉及一种面向图书关键词搜索的用户主题隐私保护方法及系统。
技术介绍
随着互联网的迅速发展,网上文本数据持续爆炸增长,文本搜索服务能根据用户提供的查询关键词,帮助用户从海量文本文档中快速地获取目标数据,已成为最热门的网络信息服务之一。关键字图书搜索服务是指从数字图书数据库中获取包含用户指定关键词的目标图书信息,是数字图书馆最重要和最常见的信息服务之一,也是一类常见的具有代表性的文本搜索服务。虽然关键字图书搜索服务能帮助用户直观有效地获取非结构图书数据,然而,用户查询本身可能会潜在地泄露用户感兴趣的敏感主题(例如,用户频繁检索刑事心理类图书,则表明用户很可能对“犯罪心理”主题感兴趣)。随着云计算等新网络技术迅速发展,文本搜索服务器正变得越来越不可信。用户查询被不可信服务器端(即检索算法宿主)大量收集,对用户主题隐私安全构成了严重威胁,正引起人们极大关注,如何有效地保护用户隐私安全,例如面向图书关键词搜索的用户主题隐私保护,已成为文本搜索服务亟待解决的重要问题。为此,针对不可信网络环境下的用户隐私安全问题,信息科学领域学者给出了许多有效方法,代表性地有:隐私加密、掩盖变换、哑元法和匿名化等。①隐私加密是指通过加密变换,使得用户服务请求对服务器端完全不可见,以达到隐私保护的目的,代表性地有隐私信息检索技术。然而,该类技术不仅要求额外硬件和复杂算法的支持,并且要求改变服务器端的信息服务算法,从而引起整个信息服务平台架构的改变,降低了方法的实际可用性。②敏感数据掩盖变换是指通过伪造数据或者使用一般化数据来掩盖涉及用户敏感偏好的服务请求数据。由于改写了用户服务请求数据,该类方法对服务的准确性通常会造成一定负面影响,即其隐私保护需以牺牲服务质量为代价,难以满足文本搜索实际应用需求。③哑元法是在用户服务请求暴露给服务器之前,预先加入哑元服务请求,并将哑元请求和真实请求一起发送给不可信服务器端,使得服务器难以获得用户真实请求数据。然而,这类技术依赖于哑元的构造质量,容易遭受基于数据特征的挖掘威胁,影响用户隐私保护效果。④匿名化技术是用户隐私保护中广泛使用的一种技术,它通过隐藏或伪装用户身份标识信息,允许用户以不暴露身份的方式使用系统。然而,现代数字图书馆提供的图书搜索服务,一般要求用户必须实名登录后才能使用服务,所以,匿名化技术难以有效地应用于现代信息服务平台,以保护用户隐私。综上所述,可以看出有效的针对数字图书馆平台的图书搜索隐私保护方法,需要满足以下几个方面的要求:①改善用户查询隐私在不可信服务器端的安全性,使得攻击者难以准确获知用户敏感查询主题;②确保用户查询结果的准确性,即对比引入隐私保护方法前后,用户获得的最终查询结果一致;③不损害现有文本搜索服务平台的实用性和高效性,即隐私保护方法不改变服务器端的搜索服务算法,不需要额外硬件支持,也不会对用户服务的执行效率构成显著性影响。然而,现有用户隐私保护技术在实用性、高效性、准确性、安全性等方面仍无法满足现代图书搜索服务的实际应用需求,仍需开发新的面向图书关键词搜索的用户主题隐私保护方法。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种有效的面向图书关键词搜索的用户主题隐私保护方法,其目的在于通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,以期在不损害系统可用性和查询准确性的前提下,改善用户查询主题隐私在不可信服务器端的安全性。为实现上述目的,按照本专利技术的一个方面,提供了一种1、一种面向图书关键词搜索的用户主题隐私保护方法,其特征在于,包括以下步骤:(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,为主题安全性阈值,@acc(P*,P)为查询结果准确性;(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询获得中间图书记录集在所述中间图书记录集上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户。优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其所述用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作:wi,i=1,2,…,m为中文关键字,表示逻辑与运算(∧)或逻辑或运算(∨)。优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询所得到的中间图书记录集即所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,为其相应的伪图书查询,为伪图书查询的结果准确性,定义如下:优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询对应的可能主题的交集,即:其中,为伪查询对应的可能主题的集合,计算方法如下:其中,为伪查询中的中文关键词对应的可能主题集合。优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,与用户查询Pk相应伪查询,为所述伪查询高效性,按照如下方法计算:优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列构造当前用户查询Pn对应的伪查询使得所述伪查询与所述伪历史查询序列构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)具体包括以下步骤:(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询所述对当前用户查询Pn的关键词进行修改;(2-2)判断所述第一查询与所述伪历史查询序列构成的第一查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询作为构造的当前用户查询Pn对应的伪查询将所述第一查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);(2-3)对第一查询的关键词进行删除,获得本文档来自技高网
...

【技术保护点】
1.一种面向图书关键词搜索的用户主题隐私保护方法,其特征在于,包括以下步骤:(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn‑1)组合成用户查询序列P=(P1,P2,…,Pn);(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P

【技术特征摘要】
1.一种面向图书关键词搜索的用户主题隐私保护方法,其特征在于,包括以下步骤:(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,为主题安全性阈值,@acc(P*,P)为查询结果准确性;(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询获得中间图书记录集在所述中间图书记录集上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户。2.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,所述用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作:为中文关键字,表示逻辑与运算(∧)或逻辑或运算(∨)。3.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询所得到的中间图书记录集即所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,为其相应的伪图书查询,为伪图书查询的结果准确性,定义如下:4.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询对应的可能主题的交集,即:其中,为伪查询对应的可能主题的集合,计算方法如下:其中,为伪查询中的中文关键词对应的可能主题集合。5.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,与用户查询Pk相应伪查询,为所述伪查询高效性,按照如下方法计算:6.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列构造当前用户查询Pn对应的伪查询使得所述伪查询与所述伪历史...

【专利技术属性】
技术研发人员:吴宗大刘曦洋谢坚
申请(专利权)人:绍兴文理学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1