文本分类方法和装置制造方法及图纸

技术编号：26171168 阅读：38 留言：0更新日期：2020-10-31 13:42

本发明专利技术公开了一种文本分类方法和装置，涉及计算机技术领域。其中，该方法包括：将待分类文本切分为多个语义单元，然后基于所述多个语义单元构建第一词序树；第一词序树包括多个分支，每个分支存储有一个语义单元组合，该语义单元组合中的各个语义单元按照其在待分类文本中出现的先后顺序排列；将第一词序树与已知类别的文本对应的第二词序树进行对比，根据对比结果确定所述待分类文本与所述已知类别的文本的相似度；根据所述待分类文本与所述已知类别的文本的相似度确定待分类文本的类别。通过以上步骤，能够在保证分类结果总体准确率的情况下，提高语料较小的类别的召回率，尤其适用于样本数量较小或者样本不均衡问题严重的文本分类场景。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法和装置
本专利技术涉及计算机
，尤其涉及一种文本分类方法和装置。
技术介绍
目前，业内主要采用机器学习和深度学习两种方法对文本分类问题进行处理。机器学习方法主要依靠诸如逻辑回归(LR)、支持向量机(SVM)或朴素贝叶斯分类器等模型，具体实现时可通过提取底层数据特征、基于词频-逆文档词频(TF-IDF)等对特征进行挖掘、加入线性变换函数和激活函数等操作进行文本分类。深度学习方法主要依靠诸如卷积神经网络模型(CNN)或递归神经网络模型(RNN)等神经网络模型，在具体实现时通过卷积、池化、全连接或长短时记忆等操作进行文本分类。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：第一、传统机器学习算法都是在基于TF-IDF进行特征挖掘的基础之上进行算法拟合。由于TF-IDF没有考虑词序，在进行独热编码(One-Hot编码)时会将每个词单独记为一个特征，导致文本丧失了语序，所以文本分类效果往往不理想。第二、当语料质量欠佳、存在严重样本分布不均衡问题时(例如，两个类别的句子数量的比值大于20)，深...

【技术保护点】
1.一种文本分类方法，其特征在于，所述方法包括：/n将待分类文本切分为多个语义单元，然后基于所述多个语义单元构建第一词序树；其中，所述第一词序树包括多个分支，每个分支存储有一个语义单元组合，并且所述语义单元组合中的各个语义单元按照其在待分类文本中出现的先后顺序进行排列；/n将第一词序树与分类语料库中已知类别的文本对应的第二词序树进行对比，然后根据对比结果确定所述待分类文本与所述已知类别的文本的相似度；/n根据所述待分类文本与所述已知类别的文本的相似度确定所述待分类文本的类别。/n

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：
将待分类文本切分为多个语义单元，然后基于所述多个语义单元构建第一词序树；其中，所述第一词序树包括多个分支，每个分支存储有一个语义单元组合，并且所述语义单元组合中的各个语义单元按照其在待分类文本中出现的先后顺序进行排列；
将第一词序树与分类语料库中已知类别的文本对应的第二词序树进行对比，然后根据对比结果确定所述待分类文本与所述已知类别的文本的相似度；
根据所述待分类文本与所述已知类别的文本的相似度确定所述待分类文本的类别。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个语义单元构建第一词序树的步骤包括：
基于所述多个语义单元构建多个语义单元组合，并且确定所述语义单元组合中的各个语义单元的层次号；所述层次号是通过对同一语义单元组合中的语义单元按照其在待分类文本中出现的先后顺序进行排序得到的；按照所述层次号将所述多个语义单元组合中的语义单元存储至多叉树中对应层次的节点中，并令同一语义单元组合中的各个语义单元位于多叉树的同一分支中，以得到所述第一词序树。

3.根据权利要求1所述的方法，其特征在于，所述对比结果包括：第二词序树中存在的与第一词序树匹配的语义单元组合；
所述将第一词序树与分类语料库中已知类别的文本对应的第二词序树进行对比的步骤包括：从第一词序树中获取所有的语义单元组合，然后根据获取的每个语义单元组合对所述已知类别的文本对应的第二词序树进行遍历、比对，以确定第二词序树中存在的与第一词序树匹配的语义单元组合。

4.根据权利要求3所述的方法，其特征在于，所述根据对比结果确定所述待分类文本与所述已知类别的文本的相似度的步骤包括：确定第二词序树中存在的与第一词序树匹配的语义单元组合的最大长度，然后根据所述最大长度以及所述已知类别的文本的长度计算所述待分类文本与所述已知类别的文本的相似度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述待分类文本与所述已知类别的文本的相似度确定所述待分类文本的类别的步骤包括：
根据所述待分类文本与同一已知类别下的各个文本的相似度确定待分类文本属于该已知类别的第一权重值和第二权重值；其中，第一权重值为所述待分类文本与同一已知类别下的各个文本的相似度的最大值，第二权重值为所述待分类文本与同一已知类别下的各个文本的相似度的均值；在满足一个已知类别的第一权重值大于第一阈值的情况下，将该已知类别作为所述待分类文本的类别；否则，对所有已知类别的第二权重值由大到小排序，并将排序结果中的前N位已知类别作为所述待分类文本的类别；其中，N为大于等于1的整数。

6.一种文本分类装置，其特征在于，所述装置包括：
构建模块，用于将待分类文本切分为多个语义单元，然后基于所述多个语义单元构建第一词序树；其中，所述第一词序树包括多个分支，每个分支存储有一个语义单元组合，并且所述语义单元组合中的各个语义单元按照其...

【专利技术属性】
技术研发人员：郑宇宇，
申请(专利权)人：京东数字科技控股有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人