文档处理方法和文档处理装置制造方法及图纸

技术编号:39827110 阅读:6 留言:0更新日期:2023-12-29 16:02
本公开提供了一种文档处理方法和文档处理装置

【技术实现步骤摘要】
文档处理方法和文档处理装置


[0001]本公开涉及数据处理领域和大语言模型领域,尤其涉及一种文档处理方法和文档处理装置


技术介绍

[0002]根据文档内容生成文档的标签是文档管理工具的必备功能之一,企业和用户能够根据文档的标签高效地进行文档筛选与管理

因此,文档标签的准确程度是影响文档管理效率的重要因素


技术实现思路

[0003]本公开的一个方面提供了一种文档处理方法,包括根据待处理文档和多个代表文档,生成提示信息,提示信息表征待处理文档与多个代表文档对应的指定文档标签之间的相关性,多个代表文档包括多个指定文档标签各自对应的至少一个代表文档;以及通过多任务处理模型,基于提示信息,确定待处理文档的目标文档标签

[0004]根据本公开实施例,根据待处理文档和多个代表文档,生成提示信息,包括:分别确定待处理文档与多个代表文档的多个文档相似度;根据多个文档相似度,从多个指定文档标签中确定至少一个与待处理文档满足相似度条件的初始文档标签;以及根据至少一个初始文档标签和至少一个初始文档标签与待处理文档的相似度,生成提示信息

[0005]根据本公开实施例,根据多个文档相似度,从多个指定文档标签中确定至少一个与待处理文档满足相似度条件的初始文档标签,包括:基于多个代表文档与对应的指定文档标签之间的相关性,确定多个代表文档的多个代表权重;基于多个文档相似度和多个代表权重,确定多个指定文档标签与待处理文档的相似度;以及获得至少一个与待处理文档满足相似度条件的初始文档标签

[0006]根据本公开实施例,根据至少一个初始文档标签和至少一个初始标签与待处理文档的相似度,生成提示信息,包括:将至少一个初始文档标签与待处理文档的相似度转换为至少一个概率词;以及根据至少一个概率词和至少一个初始文档标签,生成提示信息

[0007]根据本公开实施例,根据待处理文档和多个代表文档,生成提示信息,包括:获取多个代表文档的多个代表文档数据,以及获取待处理文档的待处理文档数据,代表文档数据表征代表文档的文本特征和存储路径特征,待处理文档数据表征待处理文档的文本特征和存储路径特征;以及根据文本相关性和存储路径相关性,生成提示信息,其中,文本相关性表征了多个代表文档的文本特征与待处理文档的文本特征之间的相关性,存储路径相关性表征了多个代表文档的存储路径特征与待处理文档的存储路径特征之间的相关性

[0008]根据本公开实施例,获取待处理文档对应的待处理文档数据,包括:基于待处理文档的文本信息,生成文本数据;基于待处理文档的存储路径信息,生成路径数据;以及拼接文本数据和路径数据,得到待处理文档数据

[0009]根据本公开实施例,基于待处理文档的存储路径信息,生成路径数据,包括:获取
存储路径信息的多个路径节点中每个路径节点的多个文件夹信息;对每个路径节点上的多个文件夹信息进行聚类分析,得到待处理文档在每个路径节点的节点数据;以及根据多个路径节点对应的多个节点数据,生成路径数据

[0010]根据本公开实施例,通过多任务处理模型,基于提示信息,确定待处理文档的目标文档标签,包括:通过多任务处理模型,基于待处理文档数据

提示信息和多个标签数据,确定目标文档标签,目标文档标签包括第一目标文档子标签和第二目标文档子标签;其中,待处理文档数据是基于待处理文档获得的,多个标签数据是基于多个指定文档标签获得的;其中,第一目标文档子标签是基于提示信息和待处理文档数据确定的,第二目标文档子标签是基于第一目标文档子标签和多个标签数据之间的类别相关性确定的

[0011]根据本公开实施例,通过多任务处理模型,基于待处理文档数据

提示信息和多个标签数据,确定目标文档标签,包括:通过多任务处理模型执行以下操作:根据类别相关性,确定多个关联标签数据,各关联标签数据对应于多个具有关联的指定文档标签;根据待处理文档数据

提示信息和多个关联标签数据,确定第一目标文档子标签;以及在确定第一目标文档子标签对应关联标签数据的情况下,确定第一目标文档子标签关联的指定文档标签为第二目标文档子标签

[0012]本公开的另一方面提供了一种文档处理装置

文档处理装置包括生成模块,用于根据待处理文档和多个代表文档,生成提示信息,提示信息表征待处理文档与多个代表文档对应的指定文档标签之间的相关性,多个代表文档包括多个指定文档标签各自对应的至少一个代表文档;以及确定模块,用于通过多任务处理模型,基于提示信息,确定待处理文档的目标文档标签

[0013]本公开的另一方面还提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的文档处理方法

[0014]本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上的文档处理方法

[0015]本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上的文档处理方法

附图说明
[0016]为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
[0017]图1示意性示出了根据本公开实施例的文档处理方法的流程图;
[0018]图2示意性示出了根据本公开实施例的生成提示信息的流程图;
[0019]图3示意性示出了根据本公开实施例的生成路径数据的示意图;
[0020]图4示意性示出了根据本公开另一实施例的生成提示信息的流程图;
[0021]图5示意性示出了根据本公开实施例的生成提示信息的示意图;
[0022]图6示意性示出了根据本公开实施例的生成目标文档标签的示意图;
[0023]图7示意性示出了根据本公开实施例的文档处理装置的框图;以及
[0024]图8示意性示出了根据本公开实施例的电子设备的示意性框图

具体实施方式
[0025]以下,将参照附图来描述本公开的实施例

但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围

在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解

然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施

此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念

[0026]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开

在此使用的术语“包括”、“包含”等表明了所述特征
...

【技术保护点】

【技术特征摘要】
1.
一种文档处理方法,包括:根据待处理文档和多个代表文档,生成提示信息,所述提示信息表征所述待处理文档与多个所述代表文档对应的指定文档标签之间的相关性,多个所述代表文档包括多个所述指定文档标签各自对应的至少一个代表文档;以及通过多任务处理模型,基于所述提示信息,确定所述待处理文档的目标文档标签
。2.
根据权利要求1所述的方法,其中,所述根据待处理文档和多个代表文档,生成提示信息,包括:分别确定所述待处理文档与多个所述代表文档的多个文档相似度;根据多个所述文档相似度,从多个所述指定文档标签中确定至少一个与所述待处理文档满足相似度条件的初始文档标签;以及根据至少一个所述初始文档标签和至少一个所述初始文档标签与所述待处理文档的相似度,生成所述提示信息
。3.
根据权利要求2所述的方法,其中,所述根据多个所述文档相似度,从多个所述指定文档标签中确定至少一个与所述待处理文档满足相似度条件的初始文档标签,包括:基于多个所述代表文档与对应的指定文档标签之间的相关性,确定多个所述代表文档的多个代表权重;基于多个所述文档相似度和多个所述代表权重,确定多个所述指定文档标签与所述待处理文档的相似度;以及获得至少一个与所述待处理文档满足相似度条件的初始文档标签
。4.
根据权利要求2所述的方法,其中,所述根据至少一个所述初始文档标签和至少一个所述初始标签与所述待处理文档的相似度,生成所述提示信息,包括:将至少一个所述初始文档标签与所述待处理文档的相似度转换为至少一个概率词;以及根据所述至少一个概率词和所述至少一个初始文档标签,生成所述提示信息
。5.
根据权利要求1所述的方法,其中,所述根据待处理文档和多个代表文档,生成提示信息,包括:获取多个所述代表文档的多个代表文档数据,以及获取所述待处理文档的待处理文档数据,所述代表文档数据表征所述代表文档的文本特征和存储路径特征,所述待处理文档数据表征所述待处理文档的文本特征和存储路径特征;以及根据文本相关性和存储路径相关性,生成所述提示信息,其中,所述文本相关性表征了多个所述代表文档的文本特征与所述待处理文档的文本特征之间的相关性,所述存储路径相关性表征了多个所述代表文档的存储路径特征与所述待处理文档的存储路径特征之间的相关性
。6.
根据权利要求5所述的方法,其中,所述获取所述待处理文档对应的待处理...

【专利技术属性】
技术研发人员:王新宇孙佳
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1