面向文本检索服务的用户隐私保护方法技术

技术编号:16456955 阅读:71 留言:0更新日期:2017-10-25 21:10
本发明专利技术公开了面向文本检索服务的用户隐私保护方法,属于文本检索隐私保护技术领域,该方法在用户进行文本检索服务时,能确保用户查询隐私和用户主题隐私在不可信服务器端的安全性。用户隐私保护过程如下:首先,给出面向文本检索服务的隐私保护框架;然后,基于以上隐私保护框架,定义一个面向文本检索服务的隐私保护模型,该隐私保护模型形式化地定义了理想伪查询应满足的条件约束;最后,基于以上隐私保护框架和隐私保护模型,给出隐私保护模型的模型求解算法。

User privacy protection method for text retrieval service

The invention discloses a text retrieval service for user privacy protection method, which belongs to the technical field of text retrieval privacy protection, the method of text retrieval service to the user, to ensure the safety of user privacy and user privacy themes in untrusted server. User privacy protection process is as follows: firstly, given for privacy protection framework for text retrieval service; then, the above privacy protection framework based on the definition of a text oriented retrieval service privacy protection model, the privacy protection model formalized pseudo ideal query conditions constraints; finally, the above framework of privacy protection and privacy the protection model based on model algorithm for solving the privacy protection model.

【技术实现步骤摘要】
面向文本检索服务的用户隐私保护方法
本专利技术涉及文本检索隐私保护
,具体涉及面向文本检索服务的用户隐私保护方法。
技术介绍
随着互联网的迅速发展,网络上的文本数据持续爆炸式地增长。文本检索服务能够根据用户所提供的查询关键词,帮助用户从海量文本数据中快速地获取想要的数据,已经成为最热门的网络服务之一。实际上,不再局限于网页文本搜索,文本检索已经被广泛地应用于网络信息服务的各个领域(如数字图书馆、电子商务网站、企业信息管理等),并取得了巨大的成功。虽然文本检索服务能够帮助用户直观有效地获取非结构文本数据,然而,用户所提交的查询可能会潜在地泄露用户的用户隐私信息,从而引发用户隐私安全问题。文本检索服务中,用户查询行为可能泄露的用户隐私可分为两类。一是查询本身的关键词隐私,简称查询隐私,即用户希望别人无法获知自己发布过的查询,或者不能确定是否发布过该查询。例如,用户希望别人无法获知或不确定自己是否查询过关键词“沙漠之鹰”和“手枪”。二是查询关键词蕴含的敏感主题,简称主题隐私,即用户希望别人无法获知自己感兴趣的主题,尤其是敏感主题。例如,用户不希望别人知道对敏感主题“武器”或“战争”感兴趣。用户查询行为所携带的这些隐私信息被不可信的文本检索服务器端(即文本检索服务算法宿主)大量地收集,将会对用户隐私安全构成严重的威胁,引起用户极大的关注。如何有效地保护用户隐私安全(包括查询隐私和主题隐私)已成为文本检索服务亟待解决的重要问题。
技术实现思路
本专利技术是为了解决现有文本检索隐私保护存在的上述不足,提供一种面向文本检索服务的用户隐私保护方法,该方法在用户进行文本检索服务时,能确保用户查询隐私和用户主题隐私在不可信服务器端的安全性。以上技术问题是通过下列技术方案解决的:面向文本检索服务的用户隐私保护方法,所述用户隐私保护过程如下:首先,给出面向文本检索服务的隐私保护框架;然后,基于以上隐私保护框架,定义一个面向文本检索服务的隐私保护模型,该隐私保护模型形式化地定义了理想伪查询应满足的条件约束;最后,基于以上隐私保护框架和隐私保护模型,给出隐私保护模型的模型求解算法。作为优选,所述隐私保护框架由一个不可信服务器端和一组可信客户端组成,该隐私保护框架的数据处理过程如下:客户端的“用户伪查询构造”部件用于分析用户查询q0的分布特征,结合客户端的“历史查询序列”构造生成一系列伪查询:q1,q2,...,qn;然后,将这些伪查询连同用户真实查询q0按照随机的次序,逐个提交给服务器端的检索服务算法;所述历史查询序列包括用户真实查询序列以及伪查询序列;客户端的“服务结果再筛选”部件从服务器端检索服务算法所返回的中间查询结果集:中筛选出对应用户真实查询q0的结果同时抛弃其它多余查询结果其中,对应查询qi,然后,将最终结果返回给外部用户。作为优选,所述客户端的“用户伪查询构造”部件为用户查询构造生成的伪查询应满足以下两个条件:一是能有效地混淆用户真实查询,让伪查询与用户真实查询拥有相似的特征分布,具体包括用户当前查询的关键词特征分布、以及用户历史查询序列的关联性特征分布,以使得掌握着丰富背景知识的攻击者难以识别剔除伪查询,从而保护用户查询隐私;二是能有效地掩盖用户查询背后蕴含的敏感主题,以保护用户主题隐私,让伪查询关联的主题应与用户敏感主题语义无关,以降低用户敏感主题在不可信服务器端的显著性。作为优选,给出隐私保护模型下的文本检索服务的攻击模型,该攻击模型是为了防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题。作为优选,为了保护用户的查询隐私,“用户伪查询构造”部件生成的伪查询必须与用户真查询拥有高度相似的分布特征,这种分布特征包括三个方面:用户查询序列的主题关联特征、用户当前查询的关键词分布特征和用户查询序列的关键词关联特征;定义1,定义主题相关和查询主题;让表示查询空间,让表示主题空间;给定任意查询和任意主题它们之间的相关性可表示为函数其中表示正实数;查询q背后所蕴含的查询主题由与q相关的主题组成,即:其中,阀值θ1用来移除主题空间中与查询q相关性较小的主题,表示查询q相关的查询主题;在某一时间段内的用户查询常常会围绕若干个固定主题展开,即用户查询序列常常会表现出富有规律的主题关联性特征,这种主题关联性特征通常表现为:主题频度和主题连续,其中,主题频度是指当前查询主题在历史查询序列中的出现频度;主题连续是指当前查询的主题关于历史查询序列的连续性;以下分别给出它们的定义;定义2,定义主题频度和主题频度向量;任意查询主题关于查询序列的出现频度定义如下:其中,任意查询关于查询序列的主题频度向量定义如下:其中,定义3,定义主题连续和主题连续向量;假设qn为查询序列的末尾查询,则任意查询主题关于查询序列的主题连续性定义如下:任意查询关于查询序列的主题连续向量定义如下:其中,定义4,定义词频度和词频度向量;让表示关键词空间;任意关键词关于查询序列的出现频度定义如下:其中,表示查询q包含的关键词集合;任意查询关于查询序列的词频度向量定义如下:其中,定义5,定义词特征和词特征向量;给定任意关键词它的词特征函数可定义为它返回关键词t的某项特征值;任意查询的某一词特征向量定义如下:Fp(q)=(Fp(t1),Fp(t2),...,Fp(tn))其中,Fp(ti)≤Fp(ti+1)(i=1,2,...,n-1);一个关键词可表现出多个特征,因此,可建立多个词特征函数,即一个查询可拥有多个关键词特征向量;现在,基于定义2至定义5,可进一步定义查询之间的特征相似性;定义6,定义查询特征相似性;查询特征相似性可通过历史相似性和当前相似性进行度量;历史相似性是指查询主题频度向量、查询主题连续向量和查询关键词频度向量,是用于度量查询关于历史序列的特征相似性;当前相似性是指查询词特征向量,用于度量查询之间的当前特征相似性;假定为查询总共建立了n个特征分布向量,分别记作:给定任意查询q1和q2,记它们对应的历史查询序列分别为和则q1和q2之间的特征相似性可度量如下:其中,dist表示欧拉距离,基于定义6,可度量伪查询关于真查询的特征似真性,以确保伪查询对用户真查询的混淆效果,使得伪查询难以被攻击者根据特征排除,从而确保用户查询隐私安全性;然而,基于前文的分析知道:除了确保用户查询隐私安全之外,“用户伪查询构造”生成的伪查询还应该确保用户敏感主题的安全性,即不仅需要阻止攻击者获知用户查询本身,还要阻止攻击者获知用户查询背后蕴含的敏感主题;这里所谓敏感主题是指用户不希望暴露给攻击者的查询主题,通常由用户预先指定;用主题显著性来度量主题在查询序列中的暴露程度;定义7,定义主题显著性;任意主题关于查询序列的显著性定义如下:其中,表示主题u关于查询序列的出现频度;任意主题关于查询序列集的显著性可定义为:根据隐私保护框架和攻击模型,当攻击者无法识别出用户查询本身的时候,他只能通过分析客户端提交的历史查询序列进行猜测;所以,敏感主题在这些历史查询序列中的显著性越大,则攻击者猜测出敏感主题的可能性也就越大;为此,可用敏感主题显著性来度量用户的敏感主题隐私;至此,基于定义6的查询特征相似性和定义7的敏感主题显著性,可进一步形式化定义用户本文档来自技高网...
面向文本检索服务的用户隐私保护方法

【技术保护点】
面向文本检索服务的用户隐私保护方法,其特征在于,所述用户隐私保护过程如下:首先,给出面向文本检索服务的隐私保护框架;然后,基于以上隐私保护框架,定义一个面向文本检索服务的隐私保护模型,该隐私保护模型形式化地定义了理想伪查询应满足的条件约束;最后,基于以上隐私保护框架和隐私保护模型,给出隐私保护模型的模型求解算法。

【技术特征摘要】
1.面向文本检索服务的用户隐私保护方法,其特征在于,所述用户隐私保护过程如下:首先,给出面向文本检索服务的隐私保护框架;然后,基于以上隐私保护框架,定义一个面向文本检索服务的隐私保护模型,该隐私保护模型形式化地定义了理想伪查询应满足的条件约束;最后,基于以上隐私保护框架和隐私保护模型,给出隐私保护模型的模型求解算法。2.根据权利要求1所述面向文本检索服务的用户隐私保护方法,其特征在于,所述隐私保护框架由一个不可信服务器端和一组可信客户端组成,该隐私保护框架的数据处理过程如下:客户端的“用户伪查询构造”部件用于分析用户查询q0的分布特征,结合客户端的“历史查询序列”构造生成一系列伪查询:q1,q2,...,qn;然后,将这些伪查询连同用户真实查询q0按照随机的次序,逐个提交给服务器端的检索服务算法;所述历史查询序列包括用户真实查询序列以及伪查询序列;客户端的“服务结果再筛选”部件从服务器端检索服务算法所返回的中间查询结果集:中筛选出对应用户真实查询q0的结果同时抛弃其它多余查询结果其中,对应查询qi,然后,将最终结果返回给外部用户。3.根据权利要求2所述面向文本检索服务的用户隐私保护方法,其特征在于,所述客户端的“用户伪查询构造”部件为用户查询构造生成的伪查询应满足以下两个条件:一是能有效地混淆用户真实查询,让伪查询与用户真实查询拥有相似的特征分布,具体包括用户当前查询的关键词特征分布、以及用户历史查询序列的关联性特征分布,以使得掌握着丰富背景知识的攻击者难以识别剔除伪查询,从而保护用户查询隐私;二是能有效地掩盖用户查询背后蕴含的敏感主题,以保护用户主题隐私,让伪查询关联的主题应与用户敏感主题语义无关,以降低用户敏感主题在不可信服务器端的显著性。4.根据权利要求3所述面向文本检索服务的用户隐私保护方法,其特征在于,给出隐私保护模型下的文本检索服务的攻击模型,该攻击模型是为了防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题。5.根据权利要求4所述面向文本检索服务的用户隐私保护方法,其特征在于,为了保护用户的查询隐私,“用户伪查询构造”部件生成的伪查询必须与用户真查询拥有高度相似的分布特征,这种分布特征包括三个方面:用户查询序列的主题关联特征、用户当前查询的关键词分布特征和用户查询序列的关键词关联特征;定义1,定义主题相关和查询主题;让表示查询空间,让表示主题空间;给定任意查询和任意主题它们之间的相关性可表示为函数其中表示正实数;查询q背后所蕴含的查询主题由与q相关的主题组成,即:其中,阀值θ1用来移除主题空间中与查询q相关性较小的主题,表示查询q相关的查询主题;在某一时间段内的用户查询常常会围绕若干个固定主题展开,即用户查询序列常常会表现出富有规律的主题关联性特征,这种主题关联性特征通常表现为:主题频度和主题连续,其中,主题频度是指当前查询主题在历史查询序列中的出现频度;主题连续是指当前查询的主题关于历史查询序列的连续性;以下分别给出它们的定义;定义2,定义主题频度和主题频度向量;任意查询主题关于查询序列的出现频度定义如下:其中,任意查询关于查询序列的主题频度向量定义如下:其中,定义3,定义主题连续和主题连续向量;假设qn为查询序列的末尾查询,则任意查询主题关于查询序列的主题连续性定义如下:任意查询关于查询序列的主题连续向量定义如下:其中,定义4,定义词频度和词频度向量;让表示关键词空间;任意关键词关于查询序列的出现频度定义如下:其中,表示查询q包含的关键词集合;任意查询关于查询序列的词频度向量定义如下:其中,定义5,定义词特征和词特征向量;给定任意关键词它的词特征函数可定义为它返回关键词t的某项特征值;任意查询的某一词特征向量定义如下:Fp(q)=(Fp(t1),Fp(t2),...,Fp(tn))其中,Fp(ti)≤Fp(ti+1)(i=1,2,...,n-1);一个关键词可表现出多个特征,因此,可建立多个词特征函数,即一个查询可拥有多个关键词特征向量;现在,基于定义2至定义5,可进一步定义查询之间的特征相似性;定义6,定义查询特征相似性;查询特征相似性可通过历史相似性和当前相似性进行度量;历史相似性是指查询主题频度向量、查询主题连续向量和查询关键词频度向量,是用于度量查询关于历史序列的特征相似性;当前相似性是指查询词特征向量,用于度量查询之...

【专利技术属性】
技术研发人员:吴宗大郑城仁
申请(专利权)人:温州大学瓯江学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1