文本分类模型构建方法与文本分类方法技术

技术编号:33190786 阅读:19 留言:0更新日期:2022-04-24 00:18
本申请涉及一种文本分类模型构建方法与文本分类方法。所述方法包括:获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。采用本方法能够得到可用于实现准确文本分类的文本分类模型,从而可以利用该文本分类模型进行文本挖掘,提高问题挖掘效率。提高问题挖掘效率。提高问题挖掘效率。

【技术实现步骤摘要】
文本分类模型构建方法与文本分类方法


[0001]本申请涉及计算机
,特别是涉及一种文本分类模型构建方法与文本分类方法。

技术介绍

[0002]在企业管理中,企业可通过问题挖掘的方式来改善制度标准等,即可通过挖掘员工通过内部平台所反馈的自己对公司流程、制度、奖惩等方面的看法和建议,来发现公司存在的一些问题,以便有针对性的进行改善。
[0003]传统技术中,在进行问题挖掘时,常采用的方式为搜集员工通过内部平台所反馈的反馈数据,管理人员通过操作终端对反馈数据进行分类与分析,得到问题挖掘结果,根据问题挖掘结果将问题转到相应部门进行处理。
[0004]然而,目前的问题挖掘方式,由于操作繁琐且分类与分析时消耗大量人力与时间,存在问题挖掘效率低的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高问题挖掘效率的文本分类模型构建方法与文本分类方法。
[0006]一种文本分类模型构建方法,所述方法包括:
[0007]获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
[0008]根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
[0009]根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
[0010]根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
[0011]在一个实施例中,获取携带类别标签的样本文本数据包括:
[0012]获取携带初始类别标签的样本文本数据;
[0013]对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词;
[0014]推送样本关键词以及携带初始类别标签的样本文本数据;
[0015]接收用户根据样本关键词反馈的标签判定信息;
[0016]根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。
[0017]在一个实施例中,对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词包括:
[0018]对样本文本数据中各样本句进行分词处理,得到与样本文本数据对应的第一分词数据;
[0019]根据预设停用词表对第一分词数据进行筛选,得到与样本文本数据对应的第二分词数据;
[0020]对第二分词数据中各词语进行词频统计,得到与各样本句对应的样本关键词。
[0021]在一个实施例中,根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量包括:
[0022]通过Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,得到各样本句对应的样本句子向量。
[0023]在一个实施例中,根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层包括:
[0024]根据样本句子向量,得到样本向量矩阵;
[0025]将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
[0026]比对类别标签和预测类别,得到模型准确率;
[0027]当模型准确率小于预设准确率阈值时,调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
[0028]在一个实施例中,根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层包括:
[0029]根据样本句子向量,得到样本向量矩阵;
[0030]将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
[0031]比对类别标签和预测类别,得到模型准确率;
[0032]当模型准确率小于预设准确率阈值时,调整Doc2vec模型层和逻辑回归模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
[0033]一种文本分类方法,所述方法包括:
[0034]获取待处理文本数据;
[0035]将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
[0036]根据文本分类结果推送待处理文本数据。
[0037]在一个实施例中,根据文本分类结果推送待处理文本数据之后,还包括:
[0038]对待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词;
[0039]推送目标关键词以及携带文本分类结果的待处理文本数据;
[0040]接收用户根据目标关键词反馈的类别判定信息;
[0041]根据类别判定信息更新待处理文本数据的文本分类结果;
[0042]根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
[0043]一种文本分类模型构建装置,所述装置包括:
[0044]数据获取模块,用于获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
[0045]第一训练模块,用于根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
[0046]第二训练模块,用于根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
[0047]处理模块,用于根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
[0048]一种文本分类装置,所述装置包括:
[0049]数据获取模块,用于获取待处理文本数据;
[0050]分类模块,用于将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
[0051]推送模块,用于根据文本分类结果推送待处理文本数据。
[0052]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0053]获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
[0054]根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
[0055]根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
[0056]根据稳定的Doc2vec模型层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型构建方法,其特征在于,所述方法包括:获取携带类别标签的样本文本数据以及初始文本分类模型,所述初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;根据所述样本文本数据训练所述Doc2vec模型层,得到与所述样本文本数据中各样本句对应的样本句子向量;根据所述类别标签和所述样本句子向量,训练所述逻辑回归模型层,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层;根据稳定的所述Doc2vec模型层和所述逻辑回归模型层,得到文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述获取携带类别标签的样本文本数据包括:获取携带初始类别标签的样本文本数据;对所述样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词;推送所述样本关键词以及所述携带初始类别标签的样本文本数据;接收用户根据所述样本关键词反馈的标签判定信息;根据所述标签判定信息更新所述样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。3.根据权利要求1所述的方法,其特征在于,所述根据所述样本文本数据训练所述Doc2vec模型层,得到与所述样本文本数据中各样本句对应的样本句子向量包括:通过所述Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练所述样本文本数据中各样本句,得到各样本句对应的样本句子向量。4.根据权利要求1所述的方法,其特征在于,所述根据所述类别标签和所述样本句子向量,训练所述逻辑回归模型层,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层包括:根据所述样本句子向量,得到样本向量矩阵;将所述样本向量矩阵输入所述逻辑回归模型层,得到与所述样本向量矩阵中各样本句子向量对应的预测类别;比对所述类别标签和所述预测类别,得到模型准确率;当所述模型准确率小于预设准确率阈值时,调整所述逻辑回归模型层的模型参数,返回所述将所述样本向量矩阵输入所述逻辑回归模型层的步骤,直到所述模型准确率大于或者等于所述预设准确率阈值,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层。5.根据权利要求1所述的方法,其特征在于,所述根据所述类别标签和所述样本句子向量,训练所述逻辑回归模型层,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层包括:根据所述样本句子向量,得到样本向...

【专利技术属性】
技术研发人员:吴鸿艺殷皓陈才陈晓晶董珊孙宏宇
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1