一种信息检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35266476 阅读:21 留言:0更新日期:2022-10-19 10:29
本申请公开了一种信息检索方法、装置,计算机设备及存储介质,属于大数据技术领域。本申请通过获取目标用户输入的查询语句,提取查询语句的关键词组合,对关键词组合进行向量转化,得到初始查询向量,获取目标用户的兴趣向量,得到兴趣向量集合,计算初始查询向量和兴趣向量集合的相关度,当相关度大于或等于预设阈值时,组合初始查询向量和兴趣向量集合,得到查询组合向量,基于预设的全同态加密算法对查询组合向量进行加密,得到加密向量,基于加密向量在预设的加密文件索引表中进行同态检索,得到同态检索结果,并对同态检索结果进行解密,得到信息检索结果。本申请提高了信息检索的精度,同时避免了用户隐私的泄露。同时避免了用户隐私的泄露。同时避免了用户隐私的泄露。

【技术实现步骤摘要】
一种信息检索方法、装置、计算机设备及存储介质


[0001]本申请属于大数据
,具体涉及一种信息检索方法、装置,计算 机设备及存储介质。

技术介绍

[0002]信息检索是用户常常需要使用的服务,例如在web搜索、大型分布式搜 索中,用户往往需要使用智能的、个性化的信息检索系统,以便可以根据用 户偏好简化信息访问和内容发现,并以最有价值和最方便的方式为用户提供 有关服务、产品和信息的个性化信息检索结果。
[0003]但是,目前的个性化信息检索通常是对用户隐私进行进行语义分析,通 过将语义分析结果作为检索要点,进行信息检索,但上述个性化信息检索方 案的误差较大,且容易出现用户隐私泄露的隐患,因为为用户提供个性化的 搜索体验往往是以牺牲其隐私为代价的,因此这要求在设计信息系统时必须 考虑如何保护用户的隐私。

技术实现思路

[0004]本申请实施例的目的在于提出一种信息检索方法、装置、计算机设备及 存储介质,以解决现有个性化信息检索方案检索结果误差较大,且容易导致 用户隐私泄露的技术问题。
[0005]为了解决上述技术问题,本申请实施例提供一种信息检索方法,采用了 如下所述的技术方案:
[0006]一种信息检索方法,包括:
[0007]接收信息检索指令,并获取目标用户输入的查询语句;
[0008]对查询语句进行关键词提取,得到查询语句对应的关键词组合;
[0009]对关键词组合进行向量转化,得到初始查询向量;
[0010]从预设的兴趣库中获取目标用户的兴趣向量,得到兴趣向量集合;
[0011]计算初始查询向量和兴趣向量集合的相关度;
[0012]当初始查询向量和兴趣向量集合的相关度大于或等于预设阈值时,组合 初始查询向量和兴趣向量集合,得到查询组合向量;
[0013]基于预设的全同态加密算法对查询组合向量进行加密,得到加密向量;
[0014]基于加密向量在预设的加密文件索引表中进行同态检索,得到同态检索 结果,并对同态检索结果进行解密,得到信息检索结果。
[0015]进一步地,对查询语句进行关键词提取,得到查询语句对应的关键词组 合,具体包括:
[0016]对查询语句进行分词处理,得到文本分词;
[0017]基于预设的关键词提取算法从文本分词中提取关键词,得到查询语句对 应的关键词组合。
[0018]进一步地,对关键词组合进行向量转化,得到初始查询向量,具体包括:
[0019]获取预设的关键词列表;
[0020]分别判断关键词组合中的关键词是否存在于关键词列表中;
[0021]基于关键词判断结果对关键词组合进行向量转化,得到初始查询向量。
[0022]进一步地,基于关键词判断结果对关键词组合进行向量转化,得到初始 查询向量,具体包括:
[0023]若关键词组合中的关键词存在于关键词列表中,则关键词的赋值为“1”;
[0024]若关键词组合中的关键词不存在于关键词列表中,则关键词的赋值为“0”;
[0025]当关键词组合中的所有关键词均完成赋值后,组合所有关键词的赋值, 得到初始查询向量。
[0026]进一步地,在从预设的兴趣库中获取目标用户的兴趣向量,得到兴趣向 量集合之前,还包括:
[0027]获取目标用户的用户数据,得到目标用户数据;
[0028]从目标用户数据中提取兴趣特征,得到目标兴趣特征;
[0029]对得到的所有目标兴趣特征进行向量转化,得到兴趣向量集合;
[0030]将兴趣向量集合导入兴趣库进行存储。
[0031]进一步地,通过以下公式计算初始查询向量和兴趣向量集合的相关度:
[0032][0033]式中,Q0为初始查询向量,I
j
为目标用户的兴趣向量集合BI中的第j个 兴趣向量,兴趣向量集合BI由m个目标兴趣向量{I1,I2,...,I
m
}构成,S
j
为目标用户的第j个目标兴趣向量I
j
和初始查询向量Q0相关度。
[0034]进一步地,在基于加密向量在预设的加密文件索引表中进行同态检索, 得到同态检索结果,并对同态检索结果进行解密,得到信息检索结果之后, 还包括:
[0035]对兴趣向量集合进行更新。
[0036]进一步地,对兴趣向量集合进行更新,具体包括:
[0037]将兴趣向量集合中的每一个目标兴趣向量均乘以预设衰退因子,得到兴 趣衰退向量集合;
[0038]计算兴趣衰退向量集合中每一个兴趣衰退向量的向量值;
[0039]分别将每一个兴趣衰退向量的向量值与预设衰退阈值进行比对;
[0040]将向量值小于预设衰退阈值的兴趣衰退向量从兴趣衰退向量集合中剔除, 得到兴趣更新向量合集;
[0041]将初始查询向量添加到兴趣更新向量合集,以完成对兴趣向量集合的更 新。
[0042]为了解决上述技术问题,本申请实施例还提供一种信息检索装置,采用 了如下所述的技术方案:
[0043]一种信息检索装置,包括:
[0044]指令接收模块,用于接收信息检索指令,并获取目标用户输入的查询语 句;
[0045]关键词提取模块,用于对查询语句进行关键词提取,得到查询语句对应 的关键词
组合;
[0046]向量转化模块,用于对关键词组合进行向量转化,得到初始查询向量;
[0047]向量获取模块,用于从预设的兴趣库中获取目标用户的兴趣向量,得到 兴趣向量集合;
[0048]相关度计算模块,用于计算初始查询向量和兴趣向量集合的相关度;
[0049]向量组合模块,用于当初始查询向量和兴趣向量集合的相关度大于或等 于预设阈值时,组合初始查询向量和兴趣向量集合,得到查询组合向量;
[0050]向量加密模块,用于基于预设的全同态加密算法对查询组合向量进行加 密,得到加密向量;
[0051]同态检索模块,用于基于加密向量在预设的加密文件索引表中进行同态 检索,得到同态检索结果,并对同态检索结果进行解密,得到信息检索结果。
[0052]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了 如下所述的技术方案:
[0053]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可 读指令,所述处理器执行所述计算机可读指令时实现如上述任一项所述的信 息检索方法的步骤。
[0054]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质, 采用了如下所述的技术方案:
[0055]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可 读指令,所述计算机可读指令被处理器执行时实现如上述中任一项所述的信 息检索方法的步骤。
[0056]与现有技术相比,本申请实施例主要有以下有益效果:
[0057]本申请公开了一种信息检索方法、装置,计算机设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法,其特征在于,包括:接收信息检索指令,并获取目标用户输入的查询语句;对所述查询语句进行关键词提取,得到所述查询语句对应的关键词组合;对所述关键词组合进行向量转化,得到初始查询向量;从预设的兴趣库中获取所述目标用户的兴趣向量,得到兴趣向量集合;计算所述初始查询向量和所述兴趣向量集合的相关度;当所述初始查询向量和所述兴趣向量集合的相关度大于或等于预设阈值时,组合所述初始查询向量和所述兴趣向量集合,得到查询组合向量;基于预设的全同态加密算法对所述查询组合向量进行加密,得到加密向量;基于所述加密向量在预设的加密文件索引表中进行同态检索,得到同态检索结果,并对所述同态检索结果进行解密,得到信息检索结果。2.如权利要求1所述的信息检索方法,其特征在于,所述对所述查询语句进行关键词提取,得到所述查询语句对应的关键词组合,具体包括:对所述查询语句进行分词处理,得到文本分词;基于预设的关键词提取算法从所述文本分词中提取关键词,得到查询语句对应的关键词组合。3.如权利要求1所述的信息检索方法,其特征在于,所述对所述关键词组合进行向量转化,得到初始查询向量,具体包括:获取预设的关键词列表;分别判断所述关键词组合中的关键词是否存在于所述关键词列表中;基于所述关键词判断结果对所述关键词组合进行向量转化,得到初始查询向量。4.如权利要求3所述的信息检索方法,其特征在于,所述基于所述关键词判断结果对所述关键词组合进行向量转化,得到初始查询向量,具体包括:若所述关键词组合中的关键词存在于所述关键词列表中,则所述关键词的赋值为“1”;若所述关键词组合中的关键词不存在于所述关键词列表中,则所述关键词的赋值为“0”;当所述关键词组合中的所有关键词均完成赋值后,组合所有所述关键词的赋值,得到所述初始查询向量。5.如权利要求1所述的信息检索方法,其特征在于,在所述从预设的兴趣库中获取所述目标用户的兴趣向量,得到兴趣向量集合之前,还包括:获取所述目标用户的用户数据,得到目标用户数据;从所述目标用户数据中提取兴趣特征,得到目标兴趣特征;对得到的所有所述目标兴趣特征进行向量转化,得到兴趣向量集合;将所述兴趣向量集合导入所述兴趣库进行存储。6.如权利要求1所述的信息检索方法,其特征在于,通过以下公式计算所述初始查询向量和所述兴趣向量集合的相关度:
式中,Q0为初始查询向量,I
j
为目标用户的兴趣向量...

【专利技术属性】
技术研发人员:钟焰涛郑毅
申请(专利权)人:润联软件系统深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1