一种文档搜索方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:38628222 阅读:14 留言:0更新日期:2023-08-31 18:28
本发明专利技术提供一种文档搜索方法、装置、系统、电子设备及存储介质,涉及文档搜索领域,可利用倒排索引表查找包含目标关键词的目标文档的目标文档标识符,其中倒排索引表以指定关键词为键,以包含所述指定关键词的文档对应的文档标识符为值;还可利用正排索引表确定目标关键词在目标文档中对应的目标第一权重,并利用目标第一权重确定各目标文档的相关性值,其中正排索引表以指定文档的文档标识符为键,以指定文档包含的关键词在指定文档中的第一权重为值;进而,可根据目标文档标识符从文档集合中获取目标文档,并根据相关性值对各目标文档进行排序,以将目标文档有序地返回给客户端,从而可提升文档检索的效率及灵活性。从而可提升文档检索的效率及灵活性。从而可提升文档检索的效率及灵活性。

【技术实现步骤摘要】
一种文档搜索方法、装置、系统、电子设备及存储介质


[0001]本专利技术涉及文档搜索领域,特别涉及一种文档搜索方法、装置、系统、电子设备及计算机可读存储介质。

技术介绍

[0002]随着大数据时代的到来和云存储服务的普及,用户为了节省本地数据管理开销,通常会选择将数据加密后存储到云端。但是当用户需要用到这些数据时会面临着云存储中的密文检索问题。可搜索加密技术可以很好地解决云环境下数据机密性和易用性之间的矛盾,使得云服务器在不解密的情况下执行搜索操作,并且只返回查询到的匹配子集,客户端只需对该子集解密就可获取检索到的信息。相关技术中,对于云存储中的文档型数据,构造可搜索加密方案的关键在于索引结构的设计。目前支持多关键字动态排序的主流索引技术是链表结构的正排索引。基于链表结构的多关键字动态排序可搜索加密方案在搜索时将搜索陷门与正排表中的文档逐一匹配并计算相关性得分,搜索时间复杂度与文档数量呈线性关系,查询效率非常低。
[0003]因此,如何提供一种文档搜索方法,以提升文档的搜索效率,是本领域技术人员所需解决的技术问题。

技术实现思路

[0004]本专利技术的目的是提供一种文档搜索方法、装置、系统、电子设备及计算机可读存储介质,可利用倒排索引表和正排索引表提升文档的搜索效率。
[0005]为解决上述技术问题,本专利技术提供一种文档搜索方法,应用于服务端,所述方法包括:
[0006]当接收到客户端发送的搜索令牌时,从所述搜索令牌中提取目标关键词,并利用倒排索引表查找包含所述目标关键词的目标文档对应的目标文档标识符;所述倒排索引表中的倒排索引项以指定关键词为键,以包含所述指定关键词的文档对应的文档标识符为值;
[0007]利用所述正排索引表确定所述目标关键词在所述目标文档中对应的目标第一权重,并利用所述目标第一权重确定各所述目标文档的相关性值;所述正排索引表中的正排索引项以指定文档的文档标识符为键,以所述指定文档包含的关键词在所述指定文档中的第一权重为值;
[0008]根据所述目标文档标识符从文档集合中获取所述目标文档,根据各所述目标文档的相关性值对各所述目标文档进行排序,并将排序后的目标文档返回至所述客户端。
[0009]可选地,所述利用倒排索引表查找包含所述目标关键词的目标文档对应的目标文档标识符,包括:
[0010]判断所述目标关键词的数量是否为1;
[0011]若是,则在所述倒排索引表中查找所述目标关键词对应的目标倒排索引项,并从
所述目标倒排索引项中获取所述目标文档标识符;
[0012]若否,则在所述倒排索引表中查找各所述目标关键词对应的候选倒排索引项,并从所有所述候选倒排索引项的交集中获取所述目标文档标识符。
[0013]可选地,所述倒排索引项索引内容中的文档标识符标注有所述指定关键词在所述文档标识符对应的文档中的第一权重,并已根据已标注的第一权重进行了排序,在从所述目标倒排索引项中获取所述目标文档标识符之后,还包括:
[0014]根据所述目标文档标识符从所述文档集合中获取所述目标文档,根据各所述目标文档标识符在所述目标倒排索引项中的顺序对各所述目标文档进行排序,并进入将排序后的目标文档返回至所述客户端的步骤。
[0015]可选地,在接收客户端发送的搜索令牌之前,还包括:
[0016]接收数据拥有端发送的文档更新令牌;所述文档更新令牌中包括待更新文档标识符、待更新文档、待更新关键词序列及待更新文档向量;所述待更新关键词序列包含所述待更新文档中的所有关键词;待更新文档向量基于文档向量模板构造,并包含所述待更新文档中所有关键词在所述待更新文档中的第一权重;所述文档向量模板中的每一位置的初值为零,且所述每一位置与所有文档的每一关键词相对应;
[0017]将所述待更新文档标识符及所述待更新文档保存至文档集合;
[0018]在所述正排索引表中创建新正排索引项,并将所述待更新文档标识符、所述待更新关键词序列及所述待更新文档向量保存至所述新正排索引项中;
[0019]将所述待更新关键词序列中的关键词设置为待更新关键词,并将所述待更新文档标识符添加至所述待更新关键词在所述倒排索引表中对应的倒排索引项中。
[0020]可选地,还包括:
[0021]接收所述数据拥有端发送的待删除文档标识符;
[0022]根据所述待删除文档标识符在所述正排索引表中确定所述待删除文档对应的待删除正排索引项;
[0023]将所述待删除正排索引项中的关键词在所述倒排索引表中对应的倒排索引项设置为待更新倒排索引项,并将所述待删除文档标识符移除所述待更新倒排索引项;
[0024]删除所述待删除正排索引项,并在所述文档集合中删除所述待删除文档标识符对应的文档。
[0025]可选地,所述搜索令牌包含搜索向量,所述搜索向量基于所述文档向量模板构造,并包含所述目标关键词的第二权重,所述利用所述正排索引表确定所述目标关键词在所述目标文档中对应的目标第一权重,并利用所述目标第一权重确定各所述目标文档的相关性值,包括:
[0026]计算所述搜索向量与各目标文档的正排索引项所包含的文档向量间的内积,得到各所述目标文件的相关性值。
[0027]可选地,所述文档向量中的第一权重为对应关键词在对应文档中对应的TF值,所述搜索向量中的第二权重值为对应目标关键词在所有文档中对应的IDF值,所述计算所述搜索向量与各目标文档的正排索引项所包含的文档向量间的内积,得到各所述目标文件的相关性值,包括:
[0028]计算所述搜索向量与各目标文档的正排索引项所包含的文档向量间的内积,以计
算各所述目标关键词在各目标文档中对应的TF

IDF值,并将各所述目标关键词在同一所述目标文档中对应的TF

IDF值进行求和,得到各所述目标文档对应的相关性值。
[0029]可选地,所述文档集合中的文档已使用第一方法加密;所述搜索令牌中的目标关键词、所述倒排索引表中的关键词已使用第二方法加密;所述正排索引表中的第一权重已使用第三方法加密。
[0030]本专利技术还提供一种文档搜索装置,应用于服务端,所述装置包括:
[0031]倒排搜索模块,用于当接收到客户端发送的搜索令牌时,从所述搜索令牌中提取目标关键词,并利用倒排索引表查找包含所述目标关键词的目标文档对应的目标文档标识符;所述倒排索引表中的倒排索引项以指定关键词为键,以包含所述指定关键词的文档对应的文档标识符为索引内容;
[0032]正排搜索模块,用于利用所述正排索引表确定所述目标关键词在所述目标文档中对应的目标第一权重,并利用所述目标第一权重确定各所述目标文档的相关性值;所述正排索引表中的正排索引项以指定文档的文档标识符为键,以所述指定文档包含的关键词在所述指定文档中的第一权重为索引内容;
[0033]搜索结果输出模块,用于根据所述目标文档标识符从文档集合中获取所述目标文档,根据各所述目标文档的相关性值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档搜索方法,其特征在于,应用于服务端,所述方法包括:当接收到客户端发送的搜索令牌时,从所述搜索令牌中提取目标关键词,并利用倒排索引表查找包含所述目标关键词的目标文档对应的目标文档标识符;所述倒排索引表中的倒排索引项以指定关键词为键,以包含所述指定关键词的文档对应的文档标识符为值;利用所述正排索引表确定所述目标关键词在所述目标文档中对应的目标第一权重,并利用所述目标第一权重确定各所述目标文档的相关性值;所述正排索引表中的正排索引项以指定文档的文档标识符为键,以所述指定文档包含的关键词在所述指定文档中的第一权重为值;根据所述目标文档标识符从文档集合中获取所述目标文档,根据各所述目标文档的相关性值对各所述目标文档进行排序,并将排序后的目标文档返回至所述客户端。2.根据权利要求1所述的文档搜索方法,其特征在于,所述利用倒排索引表查找包含所述目标关键词的目标文档对应的目标文档标识符,包括:判断所述目标关键词的数量是否为1;若是,则在所述倒排索引表中查找所述目标关键词对应的目标倒排索引项,并从所述目标倒排索引项中获取所述目标文档标识符;若否,则在所述倒排索引表中查找各所述目标关键词对应的候选倒排索引项,并从所有所述候选倒排索引项的交集中获取所述目标文档标识符。3.根据权利要求2所述的文档搜索方法,其特征在于,所述倒排索引项索引内容中的文档标识符标注有所述指定关键词在所述文档标识符对应的文档中的第一权重,并已根据已标注的第一权重进行了排序,在从所述目标倒排索引项中获取所述目标文档标识符之后,还包括:根据所述目标文档标识符从所述文档集合中获取所述目标文档,根据各所述目标文档标识符在所述目标倒排索引项中的顺序对各所述目标文档进行排序,并进入将排序后的目标文档返回至所述客户端的步骤。4.根据权利要求1所述的文档搜索方法,其特征在于,在接收客户端发送的搜索令牌之前,还包括:接收数据拥有端发送的文档更新令牌;所述文档更新令牌中包括待更新文档标识符、待更新文档、待更新关键词序列及待更新文档向量;所述待更新关键词序列包含所述待更新文档中的所有关键词;待更新文档向量基于文档向量模板构造,并包含所述待更新文档中所有关键词在所述待更新文档中的第一权重;所述文档向量模板中的每一位置的初值为零,且所述每一位置与所有文档的每一关键词相对应;将所述待更新文档标识符及所述待更新文档保存至文档集合;在所述正排索引表中创建新正排索引项,并将所述待更新文档标识符、所述待更新关键词序列及所述待更新文档向量保存至所述新正排索引项中;将所述待更新关键词序列中的关键词设置为待更新关键词,并将所述待更新文档标识符添加至所述待更新关键词在所述倒排索引表中对应的倒排索引项中。5.根据权利要求4所述的文档搜索方法,其特征在于,还包括:接收所述数据拥有端发送的待删除文档标识符;根据所述待删除文档标识符在所述正排索引表中确定所述待删除文档对应的待删除
正排索引项;将所述待删除正排索引项中的关键词在所述倒排索引表中对应的倒排索引项设置为待更新倒排索引项,并将所述待删除文档标识符移除所述待更新倒排索引项;删除所述待删除正排索引项,并在所述文档集合中删除所述待删除文档标识符对应的文档。6.根据权利要求4所述的文档搜索方法,其特征在于,所述搜索令牌包含搜索向量,所述搜索向量基于所述文档向量模板构造,并包含所述目标关键词的第二权重,所述利用所述正排索引表确定所述目标关键词...

【专利技术属性】
技术研发人员:陈珊
申请(专利权)人:中电科网络安全科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1