文档分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35580292 阅读:16 留言:0更新日期:2022-11-12 16:08
本申请涉及一种文档分类方法、装置、计算机设备和存储介质。所述方法包括:获取待分类文档;获取预先通过类别样本数据训练的多个文档类别知识图谱;将所述待分类文档与各个文档类别知识图谱进行匹配,得到所述待分类文档与各个文档类别知识图谱之间的文档类别匹配图;根据所述文档类别匹配图计算所述待分类文档与各个文档类别知识图谱之间的匹配度;根据所述匹配度确定所述待分类文档对应的分类结果。采用本方法能够提高分档分类准确性。采用本方法能够提高分档分类准确性。采用本方法能够提高分档分类准确性。

【技术实现步骤摘要】
文档分类方法、装置、计算机设备和存储介质


[0001]本专利技术涉及计算机
,特别是涉及一种文档分类方法、装置、计算机设备、存储介质和计算机程序。

技术介绍

[0002]随着越来越多的企业进行数字化、无纸化转型,企业中的文档数量以及种类也越来越多,文档分类成为企业最基本的需求之一。
[0003]传统方式中,是依靠人工经验构建每一类文档的特征,通过将待分类文档的特征与预先构建的特征进行匹配来实现文档分类。
[0004]然而,依靠人工经验构建的文档特征的准确性较低,导致文档分类的准确性也较低。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高文档分类准确性的文档分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种文档分类方法。所述方法包括:
[0007]获取待分类文档;
[0008]获取预先通过类别样本数据训练的多个文档类别知识图谱;
[0009]将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
[0010]根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
[0011]根据匹配度确定待分类文档对应的分类结果。
[0012]在其中一个实施例中,在获取待分类文档之前,所述方法还包括:
[0013]获取多个文档类别的类别样本数据;
[0014]在各个文档类别的类别样本数据中提取关键实体,得到各个文档类别对应的关键实体;
[0015]根据各个文档类别对应的关键实体以及预设领域知识库分别对待训练知识图谱进行训练,直至满足训练停止条件,得到多个文档类别知识图谱。
[0016]在其中一个实施例中,将待分类文档与各个文档类别知识图谱进行匹配,包括:
[0017]对待分类文档进行分词处理,得到待分类文档对应的分词列表;
[0018]将分词列表与各个文档类别知识图谱进行匹配。
[0019]在其中一个实施例中,根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度包括:
[0020]在文档类别匹配图中获取待分类文档与各个文档类别知识图谱的共现实体和共现实体间的关系路径;
[0021]根据共现实体和共现实体间的关系路径计算待分类文档与各个文档类别知识图
谱之间的匹配度。
[0022]在其中一个实施例中,根据共现实体和共现实体间的关系路径计算待分类文档与各个文档类别知识图谱之间的匹配度包括:
[0023]根据共现实体间的关系路径计算共现实体在对应的文档类别知识图谱上的距离;
[0024]根据共现实体的数量和共现实体在对应的文档类别知识图谱上的距离计算待分类文档与各个文档类别知识图谱之间的匹配度。
[0025]在其中一个实施例中,根据匹配度确定待分类文档对应的分类结果包括:
[0026]选取匹配度最高的文档类别知识图谱,将选取的文档类别知识图谱对应的文档类别确定为待分类文档对应的分类结果。
[0027]第二方面,本申请还提供了一种文档分类装置。所述装置包括:
[0028]文档获取模块,用于获取待分类文档;
[0029]图谱获取模块,用于获取预先通过类别样本数据训练的多个文档类别知识图谱;
[0030]类别匹配模块,用于将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
[0031]匹配度计算模块,根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
[0032]文档分类模块,用于根据匹配度确定待分类文档对应的分类结果。
[0033]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0034]获取待分类文档;
[0035]获取预先通过类别样本数据训练的多个文档类别知识图谱;
[0036]将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
[0037]根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
[0038]根据匹配度确定待分类文档对应的分类结果。
[0039]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0040]获取待分类文档;
[0041]获取预先通过类别样本数据训练的多个文档类别知识图谱;
[0042]将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
[0043]根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
[0044]根据匹配度确定待分类文档对应的分类结果。
[0045]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0046]获取待分类文档;
[0047]获取预先通过类别样本数据训练的多个文档类别知识图谱;
[0048]将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
[0049]根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
[0050]根据匹配度确定待分类文档对应的分类结果。
[0051]上述一种文档分类方法方法、装置、计算机设备、存储介质和计算机程序产品,由于文档类别知识图谱是根据类别样本数据训练得到的,能够得到准确的文档类别知识图谱。之后,通过将待分类文档与各个文档类别知识图谱进行匹配,根据匹配得到的文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度,从而根据匹配度确定待分类文档对应的分类结果,无需依赖人工经验预先构建文档特征,大大提高了文档分类的准确性。并且类别样本数据是现有的类别数据,直接获取即可,与基于深度学习算法的文档分类方法相比,不需要大量正确标注的数据作为基础,能够在提高文档分类准确性的同时,节省人力物力,进而降低了文档分类成本。
附图说明
[0052]图1为一个实施例中文档分类方法的应用环境图;
[0053]图2为一个实施例中文档分类方法的流程示意图;
[0054]图3为另一个实施例中文档分类方法的流程示意图;
[0055]图4为一个实施例中训练多个文档类别知识图谱步骤的流程示意图;
[0056]图5为另一个实施例中分档分类方法的详细流程示意图;
[0057]图6为一个实施例中文档分类装置的结构框图;
[0058]图7为一个实施例中计算机设备的内部结构图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档分类方法,其特征在于,所述方法包括:获取待分类文档;获取预先通过类别样本数据训练的多个文档类别知识图谱;将所述待分类文档与各个文档类别知识图谱进行匹配,得到所述待分类文档与各个文档类别知识图谱之间的文档类别匹配图;根据所述文档类别匹配图计算所述待分类文档与各个文档类别知识图谱之间的匹配度;根据所述匹配度确定所述待分类文档对应的分类结果。2.根据权利要求1所述的方法,其特征在于,在所述获取待分类文档之前,所述方法还包括:获取多个文档类别的类别样本数据;在各个文档类别的类别样本数据中提取关键实体,得到各个文档类别对应的关键实体;根据各个文档类别对应的关键实体以及预设领域知识库分别对待训练知识图谱进行训练,直至满足训练停止条件,得到多个文档类别知识图谱。3.根据权利要求1所述的方法,其特征在于,所述将所述待分类文档与各个文档类别知识图谱进行匹配,包括:对所述待分类文档进行分词处理,得到所述待分类文档对应的分词列表;将所述分词列表与各个文档类别知识图谱进行匹配。4.根据权利要求1所述的方法,其特征在于,所述根据所述文档类别匹配图计算所述待分类文档与各个文档类别知识图谱之间的匹配度包括:在所述文档类别匹配图中获取所述待分类文档与各个文档类别知识图谱的共现实体和所述共现实体间的关系路径;根据所述共现实体和所述共现实体间的关系路径计算所述待分类文档与各个文档类别知识图谱之间的匹配度。5.根据权利要求4所述的方法,其特征在于,所述根据所述共现实体和所述共现实体间的关系路径计算所述待分类文档与各个...

【专利技术属性】
技术研发人员:郑福康陈妍卢占宽刘玲玲陈晓阳欧阳家宝汪颖凡余华镇辛逍薛珊
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1