长文本的分类方法、终端及计算机存储介质技术

技术编号：27254394 阅读：22 留言：0更新日期：2021-02-04 12:33

本申请实施例公开了一种长文本的分类方法、终端及计算机存储介质，所述方法包括：确定待分类文本中的标点符号，并基于标点符号获得待分类文本对应的多个短文本；其中，多个短文本中的每两个连续的文本存在重叠的字符；将多个短文本依次输入至预设BERT模型中，输出多个短文本对应的多个特征向量；根据多个特征向量生成待分类文本对应的目标向量；将目标向量输入至全连接层，输出待分类文本对应的分类结果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
长文本的分类方法、终端及计算机存储介质

[0001]本专利技术涉及信息处理
，尤其涉及一种长文本的分类方法、终端及计算机存储介质。

技术介绍

[0002]基于多头自注意力机制的双向编码语言模型(Bidirectional Encoder Representations from Transformers，BERT)的新语言表示模型，它代表Transformer的双向编码器表示。与常见的其他语言表示模型不同，BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此，预训练的BERT表示可以通过一个额外的输出层进行微调(fine-tuning)，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改。
[0003]目前，为了对BERT的计算量进行控制，需要限制输入至BERT模型的文本长度，因此，在使用BERT模型进行长文本的分类时，会存在信息丢失的风险。也就是说，对于长文本的分类问题，往往无法利用BERT模型获得满意的分类结果。

技术实现思路

[0004]本申请实施例提供了一种长文本的分类方法、终端及计算机存储介质，可以在解决BERT限制文本输入长度的问题的同时，避免文本信息的丢失，大大提高分类处理的准确性。
[0005]本申请实施例的技术方案是这样实现的：
[0006]第一方面，本申请实施例提供了一种长文本的分类方法，所述方法包括：
[0007]确定所述待分类文本中的标点符号，并基于所述标点符号获得所述待分类文本对应的多...

【技术保护点】

【技术特征摘要】
1.一种长文本的分类方法，其特征在于，所述方法包括：确定所述待分类文本中的标点符号，并基于所述标点符号获得所述待分类文本对应的多个短文本；其中，所述多个短文本中的每两个连续的文本存在重叠的字符；将所述多个短文本依次输入至预设BERT模型中，输出所述多个短文本对应的多个特征向量；根据所述多个特征向量生成所述待分类文本对应的目标向量；将所述目标向量输入至全连接层，输出所述待分类文本对应的分类结果。2.根据权利要求1所述的方法，其特征在于，所述基于所述标点符号获得所述待分类文本对应的多个短文本，包括：按照所述标点符号对所述待分类文本进行分割处理，获得分割后文本；对所述分割后文本中的任意两个连续文本进行组合处理，获得所述多个短文本。3.根据权利要求1或2所述的方法，其特征在于，所述确定所述待分类文本中的标点符号，并基于所述标点符号获得所述待分类文本对应的多个短文本，包括：识别所述待分类文本中的k个标点符号；其中，k为大于或者等于1的整数；基于所述标点符号获得所述待分类文本对应的m个短文本；其中，m为小于k的整数。4.根据权利要求1所述的方法，其特征在于，所述将所述目标向量输入至全连接层，输出所述待分类文本对应的分类结果之前，所述方法还包括：确定所述待分类文本对应的业务标签数量；根据所述业务标签数量确定所述全连接层对应的节点数量。5.根据权利要求1所述的方法，其特征在于，所述根据所述多个特征向量生成所述待分类文本对应的目标向量，包括：对所述多个特征向量进行拼接处理，获得所述目标向量；或者，对所述多个特征向量进行相加处理，获得所述目标向量。6.根据权利要求1所述的方法，其特征在于，所述将所述多个短文本依次输入至预设BERT模型中，输出所述多个短文本对应的多个特征向量之后，所述方法还包括：固定所述预设BERT模型的内部参数。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：所述待分类文本的字符数量大于或者等于预设数量阈值；其中，所述预设数量阈值用于对文本的长度进行限制。8.根据权利要求1所述的方法，其特征在于，所述将所述多个短文本依次输入至预设BERT模型中，输出所述多个短文本对应的多个特征向量，包括：确定所述多个短文本中的一个短文本对应的子向量、文本向量以及位置向量；根据所述子向量、所述文本向量以及所述位置向量确定输入向量；将所述输入向量输入至所述预设BERT模型中，输出所述一个短文本对应的特征向量；遍历所述多个短文本，获得所述多个特征向量。9.根据权利要求1所述的方法，其特征在于，所述将所述多个短文本依次输入至预设BERT模型中，输出所述多个短文...

【专利技术属性】
技术研发人员：李志强，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人