网盘文档快速分类方法、装置、网盘及存储介质制造方法及图纸

技术编号:36165640 阅读:20 留言:0更新日期:2022-12-31 20:15
本发明专利技术实施例公开了一种网盘文档快速分类方法、装置、网盘及存储介质,其中,所述方法包括:获取待分类文档的引用信息;根据所述引用信息确定待分类文档之间的引用层级;根据所述引用信息确定引用权重系数;根据所述引用层级和引用权重系数计算引用关系参数;计算待分类文档之间关键词近似度参数;根据所述引用关系参数和关键词近似度参数计算待分类文档两两之间的近似度,并根据所述近似度对待分类文档进行分类。充分考虑了文档之间的引用关系,进而提升了文档分类的准确性。进而提升了文档分类的准确性。进而提升了文档分类的准确性。

【技术实现步骤摘要】
网盘文档快速分类方法、装置、网盘及存储介质


[0001]本专利技术涉及网盘
,尤其涉及一种网盘文档快速分类方法、装置、网盘及存储介质。

技术介绍

[0002]网盘,是由互联网公司推出的在线存储服务。网盘系统机房为用户划分一定的磁盘空间,为用户免费或收费提供文件的存储、访问、备份、共享等文件管理等功能,并且拥有高级的世界各地的容灾备份。
[0003]对于企业网盘,其中存储海量文档文件,为提高文档的使用效率,以及提高文档的查找效率。网盘会经常对文档进行归档分类整理,以提高网盘文档的使用效率,提升企业办公效率。
[0004]在实现本专利技术的过程中,专利技术人发现如下技术问题:目前对网盘文档的分类普遍采用传统的关键词匹配方法,即提取多个文档的关键词,根据关键词的重合度进行文档分类。然而,该种方式只能未考虑文档之间的依赖关系,使得文档分类准确性较低。

技术实现思路

[0005]本专利技术实施例提供了一种网盘文档快速分类方法、装置、网盘备及存储介质,以解决现有技术中网盘文档快速分类依托于关键词重合度技术导致分类准确性较低的技术问题。
[0006]第一方面,本专利技术实施例提供了一种网盘文档快速分类方法,包括:获取待分类文档的引用信息;根据所述引用信息确定待分类文档之间的引用层级;根据所述引用信息确定引用权重系数;根据所述引用层级和引用权重系数计算引用关系参数;计算待分类文档之间关键词近似度参数;根据所述引用关系参数和关键词近似度参数计算待分类文档两两之间的近似度,并根据所述近似度对待分类文档进行分类。
[0007]第二方面,本专利技术实施例还提供了一种网盘文档快速分类装置,包括:获取模块,用于获取待分类文档的引用信息;引用层级确定模块,用于根据所述引用信息确定待分类文档之间的引用层级;权重系数确定模块,用于根据所述引用信息确定引用权重系数;引用关系参数计算模块,用于根据所述引用层级和引用权重系数计算引用关系参数;近似度参数计算模块,用于计算待分类文档之间关键词近似度参数;分类模块,用于根据所述引用关系参数和关键词近似度参数计算待分类文档两两之间的近似度,并根据所述近似度对待分类文档进行分类。
[0008]第三方面,本专利技术实施例还提供了一种网盘,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例提供的网盘文档快速分类方法。
[0009]第四方面,本专利技术实施例还提供了包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的网盘文档快速分类方法。
[0010]本专利技术实施例提供的网盘文档快速分类方法、装置、网盘及存储介质,通过获取待分类文档的引用信息;根据所述引用信息确定待分类文档之间的引用层级;根据所述引用信息确定引用权重系数;根据所述引用层级和引用权重系数计算引用关系参数;计算待分类文档之间关键词近似度参数;根据所述引用关系参数和关键词近似度参数计算待分类文档两两之间的近似度,并根据所述近似度对待分类文档进行分类。通过网盘文档中的引用信息,提取出对应引用层级,并根据引用信息获取到对应的引用强度,进而确定对应的引用权重系数,并通过引用权重系数和引用层级计算可充分表征文档之间引用关系的引用关系参数。利用引用关系参数对关键词近似度参数进行调整,进而得到准确的文档近似度。并利用文档之间的近似度进行分类。充分考虑了文档之间的引用关系,进而提升了文档分类的准确性。
附图说明
[0011]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术实施例一提供的网盘文档快速分类方法的流程示意图;图2是本专利技术实施例二提供的网盘文档快速分类方法的流程示意图;图3是本专利技术实施例三提供的网盘文档快速分类方法的流程示意图;图4是本专利技术实施例四提供的网盘文档快速分类装置的结构示意图;图5是本专利技术实施例五提供的网盘的结构图。
具体实施方式
[0012]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0013]实施例一图1是本专利技术实施例一提供的网盘文档快速分类方法的流程图,本实施例可适用于对网盘文档准确进行分类的情况,该方法可以由网盘文档快速分类装置来执行,并可集成于网盘中,具体包括如下步骤:步骤110,获取待分类文档的引用信息。
[0014]网盘中可存储海量文档,并可为每个文档设置多种属性,并将属性作为元数据存储于网盘数据库中。在本实施例中,网盘中的文档设有引用属性,利用引用属性获取对应的
引用信息。
[0015]可选的,所述获取待分类文档的引用信息,可以包括:读取所述待分类文档中的引用属性;解析引用属性,得到引用信息。可选的,所述引用信息可以包括:引用关系,引用内容在文档中的位置、字数等信息。
[0016]步骤120,根据所述引用信息确定待分类文档之间的引用层级。
[0017]由于文档之间可能存在多层引用关系,例如:文档A引用文档B,文档B引用文档C,此时,文档A与文档C之间存在间接引用关系。而间接引用关系也说明了文档之间的关联性,因此,也需要确定待分类文档之间互相的引用层级关系。
[0018]可选的,所述根据所述引用信息确定待分类文档之间的引用层级,可以包括:根据所述引用信息确定引用关系;根据所述引用关系建立引用关系树;根据所述引用关系树确定待分类文档之间的引用层级。根据引用信息中的引用关系,通过建立引用关系树,便于确定多层引用关系。进而确定引用文档之间的引用层级。
[0019]步骤130,根据所述引用信息确定引用权重系数。
[0020]文档之间虽然存在引用关系,但不能完全体现文档之间的近似和依赖程度。因此,在本实施例中,引入引用权重系数,用于体现引用文档之间对引用的依赖程度。示例性的,可以根据所述引用信息来确定引用权重系数。
[0021]示例性的,可以通过引用信息中引用频次,引用的内容重复度等信息确定引用权重系数。如果引用频次较高,则可设定较高的权重系数。如果引用内容重复度较高,则说明引用只是用于说明一个问题,则可设定较低的权重系数。
[0022]示例性的,所述根据所述引用信息确定引用权重系数,可以包括:根据所述引用信息中确定引用内容的所在段落以及段落位置;根据段落号和相应的段落位置比值确定引用权重系数。
[0023]在文档之间互相引用过程中,部分引用是用于说明原来文档中介绍的发展情况和存在的问题。在此种情况下,文档和引用文档之间的依赖程度较低。而另外一种引用,则是说明本文档与引用文档之间存在着密切关联。二者主要在文档的所在段落和段落位置有所体现。在第一种情况下,通常引用出现在文档前几段中,用于进行介绍;而后一种情况则是通常在文档的正文部分。因此,可根据段落本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网盘文档快速分类的方法,其特征在于,包括:获取待分类文档的引用信息;根据所述引用信息确定待分类文档之间的引用层级;根据所述引用信息确定引用权重系数;根据所述引用层级和引用权重系数计算引用关系参数;计算待分类文档之间关键词近似度参数;根据所述引用关系参数和关键词近似度参数计算待分类文档两两之间的近似度,并根据所述近似度对待分类文档进行分类。2.根据权利要求1所述的方法,其特征在于,所述获取待分类文档的引用信息,包括:读取所述待分类文档中的引用属性;解析引用属性,得到引用信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述引用信息确定待分类文档之间的引用层级,包括:根据所述引用信息确定引用关系;根据所述引用关系建立引用关系树;根据所述引用关系树确定待分类文档之间的引用层级。4.根据权利要求1所述的方法,其特征在于,所述根据所述引用信息确定引用权重系数,包括:根据所述引用信息中确定引用内容的所在段落以及段落位置;根据段落号和相应的段落位置比值确定引用权重系数。5.根据权利要求1所述的方法,其特征在于,所述根据所述引用信息确定引用权重系数,包括:根据所述引用信息确定引用次数和引用内容对应的字符数量;根据引用次数和引用内容对应的字符数量确定引用权重系数。6.根据权利要求1所述的方法,其特征在于,所述根据所述引用关系参数和关键词近似度参数计算待分类文档两两之间的近似度,包括:在对网盘文档进行关联性分类时,将引用关系参数和关键词近似度参数计算之和作为待分类文档两两之间的近似度。7.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:张莹
申请(专利权)人:天津联想协同科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1