一种文本分类方法及系统技术方案

技术编号：24091486 阅读：33 留言：0更新日期：2020-05-09 08:16

本发明专利技术公开了一种文本分类方法及系统。本发明专利技术考虑到Bert基于字编码的局限性，它严重的损失了词中字的内在关系信息，本发明专利技术在Bert的基础上增加了词的位置编码方式，因此得到的句向量由字向量、句向量、词向量和位置信息四个部分组成，获取包含了词的信息的句向量表示，用这样的句向量训练模型进行分类模型训练，最后将该模型用于中文句子分类。

A text classification method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法及系统
本专利技术涉及深度学习领域的文本分类模型的构建方法，具体涉及一种Bert模型的改进方法及其在文本分类上的应用。
技术介绍
文本分类问题是NLP领域的一个经典问题，它积累了许多的方法。早期的文本分类主要是基于传统的机器学习方法，如基于TF-IDF的文本分类等。随着深度学习的发展，也涌现出了许多的基于深度学习的文本分类模型，如Fast-Text，Text-CNN等。直至2018年10月，Google正式公开了一个迁移学习模型Bert并获得了极好的效果，它彻底改变了预训练产生词向量和下游具体NLP任务的关系，使用迁移学习的方法来解决NLP领域的问题也成为一个重要方向。然而，Bert模型是通过字进行编码而没有考虑到字词之间的关系的问题，导致了其在文本分类上仍然存在效果不好的问题。
技术实现思路
针对上述的Bert模型分类中存在的不是通过词编码的向量的问题，因此本专利技术从通过加入词向量表示句子并重新训练模型最终实现模型的优化，以得到更好的模型分类效果。技术方案是：一...

【技术保护点】
1.一种文本分类方法，其特征在于，包括如下步骤：/n第1步，获得文本数据集；/n第2步，对数据集数据分别进行字向量编码、文本向量编码和位置向量编码，并加入词向量编码方式；/n第3步，将第2步得到的字向量、词向量、句向量和位置向量一起输入至Bert模型中进行模型预训练，得到新的预训练模型；/n第4步，采用实际分类数据对预训练模型进行迭代微调，得到实际分类模型；/n第5步，采用第4步得到的实际分类模型对实际业务待分类文本进行分类处理。/n

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括如下步骤：
第1步，获得文本数据集；
第2步，对数据集数据分别进行字向量编码、文本向量编码和位置向量编码，并加入词向量编码方式；
第3步，将第2步得到的字向量、词向量、句向量和位置向量一起输入至Bert模型中进行模型预训练，得到新的预训练模型；
第4步，采用实际分类数据对预训练模型进行迭代微调，得到实际分类模型；
第5步，采用第4步得到的实际分类模型对实际业务待分类文本进行分类处理。

2.根据权利要求1所述的文本分类方法，其特征在于，在一个实施方式中，所述的第2步中的词向量的编码方式是：用1表示当前位置的字与前一个字是一个词，否则为0。

3.根据权利要求1所述的文本分类方法，其特征在于，在一个实施方式中，...

【专利技术属性】
技术研发人员：陈旋，吕成云，蔡栩，
申请(专利权)人：江苏艾佳家居用品有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人