一种数据分类分级处理方法及装置制造方法及图纸

技术编号:34020152 阅读:14 留言:0更新日期:2022-07-02 16:44
本发明专利技术提供了一种数据分类分级处理方法及装置,其中,该方法包括:通过无监督算法构建样本库;基于该样本库,采用机器学习进行文档分类分级处理,可以解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题,基于监督算法构建样本库,基于样本库进行数据分类分级,实现了无样本依赖下的文档快速准确分类分级。的文档快速准确分类分级。的文档快速准确分类分级。

【技术实现步骤摘要】
一种数据分类分级处理方法及装置


[0001]本专利技术涉及数据处理领域,具体而言,涉及一种数据分类分级处理方法及装置。

技术介绍

[0002]在文档语义特征表达层面,各领域文档形式多样、内容丰富、中文语体混杂的情况普遍存在,例如金融卷案形式多样、语体混杂,且上下文语义高度相关。而目前的语言模型建立在朴素贝叶斯独立性假设的基础上,现实情况明显无法满足独立性假设要求,从而导致文档分类分级的准确率较低。
[0003]在文档内容识别层面,敏感文档的分类检测技术分为有监督和无监督两种模式,无监督文档分类技术不需要样本但准确率很低。
[0004]有监督文档准确率相对较高,但存在样本标注工作量大、人工标注质量无法保证的问题,直接导致产品研发周期长、成本高的问题。
[0005]针对相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题,尚未提出解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种数据分类分级处理方法及装置,以至少解决相关技术中文档分类普遍存在着文档分类分级准确率低、研发周期长、成本高的问题。
[0007]根据本专利技术的一个实施例,提供了一种数据分类分级处理方法,包括:
[0008]通过无监督算法构建样本库;
[0009]基于所述样本库,采用机器学习进行文档分类分级处理。
[0010]可选地,通过无监督算法构建样本库包括:
[0011]重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:/>[0012]从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;
[0013]从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
[0014]可选地,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:
[0015]将所述样本集Y划分为训练集和验证集;
[0016]分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;
[0017]使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;
[0018]在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。
[0019]可选地,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:
[0020]采集预定数量的文档,组成所述样本集Q;
[0021]根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;
[0022]从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。
[0023]可选地,在根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果之前,所述方法还包括:
[0024]采用训练好的中文语言模型对所述样本Q中的文档进行特征提取,得到文档特征;
[0025]采用数据分析工具对所述样本集Q中的文档特征进行特征对齐;
[0026]采用非线性降维算法对所述文档特征进行降维处理。
[0027]可选地,所述方法还包括:
[0028]将语料库按领域和语体划分为多个语料库子集;
[0029]针对各个语料子集训练语言模型,得到训练好的多个语言模型;
[0030]利用线性插值法对训练好的所述多个语言模型进行整合,得到所述训练好的中文语言模型。
[0031]根据本专利技术的另一个实施例,还提供了一种数据分类分级处理装置,包括:
[0032]构建模块,用于通过无监督算法构建样本库;
[0033]分类分级处理模块,用于基于所述样本库,采用机器学习进行文档分类分级处理。
[0034]可选地,所述构建模块,还用于重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:
[0035]从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;
[0036]从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。
[0037]可选地,所述装置还包括:
[0038]第一划分模块,用于将所述样本集Y划分为训练集和验证集;
[0039]第一训练模块,用于分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;
[0040]验证模块,用于使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;
[0041]确定模块,用于在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。
[0042]可选地,所述装置还包括:
[0043]采集模块,用于采集预定数量的文档,组成所述样本集Q;
[0044]聚类模块,用于根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;
[0045]选取模块,用于从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。
[0046]可选地,所述装置还包括:
[0047]特征提取模块,用于采用训练好的中文语言模型对所述样本Q中的文档进行特征提取,得到文档特征;
[0048]特征对齐模块,用于采用数据分析工具对所述样本集Q中的文档特征进行特征对齐;
[0049]降维模块,用于采用非线性降维算法对所述文档特征进行降维处理。
[0050]可选地,所述装置还包括:
[0051]第二划分模块,用于将语料库按领域和语体划分为多个语料库子集;
[0052]第二训练模块,用于针对各个语料子集训练语言模型,得到训练好的多个语言模型;
[0053]整合模块,用于利用线性插值法对训练好的所述多个语言模型进行整合,得到所述训练好的中文语言模型。
[0054]根据本专利技术的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0055]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[005本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据分类分级处理方法,其特征在于,包括:通过无监督算法构建样本库;基于所述样本库,采用机器学习进行文档分类分级处理。2.根据权利要求1所述的方法,其特征在于,通过无监督算法构建样本库包括:重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量:从样本集Q中选取多个样本,分别使用预先根据样本集Y训练好的支持向量机模型、文本分类模型、邻近算法模型对所述多个样本进行预测,得到多组预测结果,其中,每组预测结果包括三个预测结果,所述样本集Q有采集的文档组成,初始的所述样本集Y是根据所述样本集Q聚类处理得到的;从所述多组预测结果中选取至少有2个预测结果相同的目标样本,将所述目标样本合并到所述样本集Y中。3.根据权利要求2所述的方法,其特征在于,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:将所述样本集Y划分为训练集和验证集;分别使用所述训练集Y对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行训练;使用所述验证集对所述支持向量机模型、所述文本分类模型、所述邻近算法模型进行验证;在验证结果满足预设条件的情况下,确定模型训练完成,得到训练好的所述支持向量机模型、所述文本分类模型、所述邻近算法模型。4.根据权利要求2所述的方法,其特征在于,在重复以下步骤,直到所述样本库中的样本集Y的数量大于或等于预设数量之前,所述方法还包括:采集预定数量的文档,组成所述样本集Q;根据预先确定的K均值聚类算法的K值对所述样本集Q进行聚类,得到聚类结果;从所述聚类结果中选取一部分距离类族中心小于预设阈值的文档作为初始的所述样本集Y。5.根据权利要求4所述的方法,其特征在于,在根据预先确定的K均值聚类算...

【专利技术属性】
技术研发人员:孙亚东蔚晨谭咏茂吴海洋张荣臻向小佳黄时光丁永建李璠
申请(专利权)人:光大科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1