一种文档管理方法技术

技术编号:38239184 阅读:8 留言:0更新日期:2023-07-25 18:03
本申请公开了一种文档处理方法、装置、设备及存储介质,其中,所述方法包括:获取待处理文档的权限参数和内容参数,其中,所述权限参数用于表征所述待处理文档的权限,所述内容参数用于表征所述待处理文档的内容;利用所述权限参数和所述内容参数确定所述待处理文档之间的相似度距离;将所述参数距离满足距离阈值的所述待处理文档划分为同一子空间,以使得所述同一子空间中存储文档的权限和内容相似。述同一子空间中存储文档的权限和内容相似。述同一子空间中存储文档的权限和内容相似。

【技术实现步骤摘要】
一种文档管理方法


[0001]本申请实施例涉及电子数据管理领域,涉及但不限于一种文档管理方法、装置、设备及存储介质。

技术介绍

[0002]从海量文档中搜索语义相似的文档是用户的一种常见需求,也是文档管理工具必备的一种功能。文档的语义相似度可以通过构建文档的语义向量,并计算文档向量距离来度量。当文档规模较小时,可以直接计算所有存储文档与待搜索文档的距离,搜索相似文档。但当文档规模较大的情况下,上述暴力搜索的方式耗时巨大,难以实用。且使用语音相似度方法搜索出的文档,内容虽相似,但不在访问权限范围内,导致需要反复多次重定位子空间才能找到符合权限的文档。

技术实现思路

[0003]有鉴于此,本申请实施例提供一种文档管理方法、一种文档搜索方法和电子设备。
[0004]本申请实施例的技术方案是这样实现的:
[0005]第一方面,本申请实施例提供一种文档管理方法,所述方法包括:
[0006]获取待处理文档的权限参数和内容参数,其中,所述权限参数用于表征所述待处理文档的权限,所述内容参数用于表征所述待处理文档的内容;利用所述权限参数和所述内容参数确定所述待处理文档之间的相似度距离;将所述参数距离满足距离阈值的所述待处理文档划分为同一子空间,以使得所述同一子空间中存储文档的权限和内容相似。
[0007]第二方面,本申请实施例提供一种文档搜索方法,所述方法包括:
[0008]获取待搜索文档的权限参数和内容参数,其中,所述权限参数用于表征所述待搜索文档的权限,所述内容参数用于表征所述待搜索文档的内容;基于所述权限参数和所述内容参数在存储文档的子空间中确定至少一个目标子空间,其中,所述每个子空间中存储文档之间的相似度距离满足距离阈值,所述相似度距离是基于所述存储文档的权限参数和内容参数确定的;在所述至少一个目标子空间中搜索与所述待搜索文档的内容相似且权限相似的文档。
[0009]第三方面,本申请实施例提供一种文档管理装置,所述装置包括:
[0010]第一获取模块,用于获取待处理文档的权限参数和内容参数,其中,所述权限参数用于表征所述待处理文档的权限,所述内容参数用于表征所述待处理文档的内容;
[0011]第一确定模块,用于利用所述权限参数和所述内容参数确定所述待处理文档之间的相似度距离;
[0012]划分模块,用于将所述参数距离满足距离阈值的所述待处理文档划分为同一子空间,以使得所述同一子空间中存储文档的权限和内容相似。
[0013]第四方面,本申请实施例提供一种文档搜索装置,所述装置包括:
[0014]第二获取模块,用于获取待搜索文档的权限参数和内容参数,其中,所述权限参数
用于表征所述待搜索文档的权限,所述内容参数用于表征所述待搜索文档的内容;
[0015]第二确定模块,用于基于所述权限参数和所述内容参数在存储文档的子空间中确定至少一个目标子空间,其中,所述每个子空间中存储文档之间的相似度距离满足距离阈值,所述相似度距离是基于所述存储文档的权限参数和内容参数确定的;
[0016]搜索模块,在所述至少一个目标子空间中搜索与所述待搜索文档的内容相似且权限相似的文档。
[0017]第五方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
[0018]第六方面,本申请实施例提供一种存储介质,存储有可执行指令,用于处理器执行时,实现上述方法。
[0019]本申请实施例中,首先获取待处理文档的权限参数和内容参数,其中,所述权限参数用于表征所述待处理文档的权限,所述内容参数用于表征所述待处理文档的内容;然后利用所述权限参数和所述内容参数确定所述待处理文档之间的相似度距离;最后将所述参数距离满足距离阈值的所述待处理文档划分为同一子空间,以使得所述同一子空间中存储文档的权限和内容相似。这样,可以实现同一子空间中存储文档的内容不仅相似,且权限也相似,从而在文档搜索时能快速定位到与该待搜索文档内容和权限均相似的文档。
附图说明
[0020]图1A为本申请实施例提供的一种文档处理方法的实现流程示意图;
[0021]图1B为本申请实施例提供一种将文档的权限映射为树形结构的示意图;
[0022]图1C为本申请实施例提供一种将文档的权限映射为树形结构的示意图;
[0023]图2为本申请实施例提供的一种获取权限参数的实现流程示意图;
[0024]图3为本申请实施例提供的一种文档搜索方法的实现流程示意图;
[0025]图4A为本申请实施例提供的一种文档带有权限约束的场景的示意图;
[0026]图4B为本申请实施例提供一种文档权限的向量化方法的实现流程示意图;
[0027]图5A为本申请实施例提供的一种文档处理装置的组成结构示意图;
[0028]图5B为本申请实施例提供的一种文档搜索装置的组成结构示意图;
[0029]图6为本申请实施例提供的电子设备的一种硬件实体示意图。
具体实施方式
[0030]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请实施例的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
[0031]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0032]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的
顺序实施。
[0033]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0034]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0035]dim
feat
:语义特征向量维度。
[0036]dim
pos
:位置特征向量维度。
[0037]depth_layer:位置空间每层最大深度,数值上与dim
pos
相同。
[0038]width_circle:位置空间宽度特征函数循环周期,超参数。
[0039]p:位置空间随层数递减的等比级数(geometric series)系数,0<p<1,超参数。
[0040]f(node.depth):返回节点所在位置深度的标量特征。f为周期函数,周期为depth_l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,所述方法包括:获取待处理文档的权限参数和内容参数,其中,所述权限参数用于表征所述待处理文档的权限,所述内容参数用于表征所述待处理文档的内容;利用所述权限参数和所述内容参数确定所述待处理文档之间的相似度距离;将所述参数距离满足距离阈值的所述待处理文档划分为同一子空间,以使得所述同一子空间中存储文档的权限和内容相似。2.如权利要求1所述的方法,所述获取待处理文档的权限参数,包括:获取所述待处理文档的路径信息,其中,将所述待处理文档的权限映射为树形结构,所述待处理文档的路径信息表征所述待处理文档的权限;对所述路径信息进行编码,得到所述待处理文档的权限参数。3.如权利要求2所述的方法,所述对所述路径信息进行编码,得到所述待处理文档的权限参数,包括:基于所述路径信息确定所述待处理文档的深度信息和宽度信息,其中,所述深度信息用于表征所述待处理文档所在层级至根目录的深度,所述宽度信息用于表征所述路径信息中每一层级的子目录位置;对所述深度信息和所述宽度信息进行编码,得到所述待处理文档的权限参数。4.如权利要求3所述的方法,所述对所述深度信息和所述宽度信息进行编码,得到所述待处理文档的权限参数,包括:确定所述权限参数的向量长度;基于所述向量长度,确定用于计算所述权限参数每一维取值的层级,其中,所述层级为所述路径信息的层级;对所述权限参数每一维对应层级的深度信息和宽度信息进行编码,得到所述权限参数每一维取值;基于所述权限参数每一维取值,确定所述待处理文档的权限参数。5.如权利要求4所述的方法,所述对所述权限参数每一维对应层级的深度信息和宽度信息进行编码,得到所述权限参数每一维取值,包括:获取所述权限参数第i维对应每一层级的深度信息和宽度信息,其中,i为大于等于1小于等于参数长度的整数;将所述第i维对应每一层级的深度信息进行加权求和,得到第i维深度编码;将所述第i维对应每一层级的宽度信息进行加权求和,得到第i维宽度编码;对所述第i维深度编码和所述第i维宽度编码进行二元运算,得到所...

【专利技术属性】
技术研发人员:王孝花崔恒徐雁斌
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1