【技术实现步骤摘要】
长文本的分类方法、终端及计算机存储介质
[0001]本专利技术涉及信息处理
,尤其涉及一种长文本的分类方法、终端及计算机存储介质。
技术介绍
[0002]基于多头自注意力机制的双向编码语言模型(Bidirectional Encoder Representations from Transformers,BERT)的新语言表示模型,它代表Transformer的双向编码器表示。与常见的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调(fine-tuning),适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。
[0003]目前,为了对BERT的计算量进行控制,需要限制输入至BERT模型的文本长度,因此,在使用BERT模型进行长文本的分类时,会存在信息丢失的风险。也就是说,对于长文本的分类问题,往往无法利用BERT模型获得满意的分类结果。
技术实现思路
[0004]本申请实施例提供了一种长文本的分类方法、终端及计算机存储介质,可以在解决BERT限制文本输入长度的问题的同时,避免文本信息的丢失,大大提高分类处理的准确性。
[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供了一种长文本的分类方法,所述方法包括:
[0007]确定所述待分类文本中的标点符号,并基于所述标点符号获得所述待分类文本对应的多 ...
【技术保护点】
【技术特征摘要】
1.一种长文本的分类方法,其特征在于,所述方法包括:确定所述待分类文本中的标点符号,并基于所述标点符号获得所述待分类文本对应的多个短文本;其中,所述多个短文本中的每两个连续的文本存在重叠的字符;将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文本对应的多个特征向量;根据所述多个特征向量生成所述待分类文本对应的目标向量;将所述目标向量输入至全连接层,输出所述待分类文本对应的分类结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述标点符号获得所述待分类文本对应的多个短文本,包括:按照所述标点符号对所述待分类文本进行分割处理,获得分割后文本;对所述分割后文本中的任意两个连续文本进行组合处理,获得所述多个短文本。3.根据权利要求1或2所述的方法,其特征在于,所述确定所述待分类文本中的标点符号,并基于所述标点符号获得所述待分类文本对应的多个短文本,包括:识别所述待分类文本中的k个标点符号;其中,k为大于或者等于1的整数;基于所述标点符号获得所述待分类文本对应的m个短文本;其中,m为小于k的整数。4.根据权利要求1所述的方法,其特征在于,所述将所述目标向量输入至全连接层,输出所述待分类文本对应的分类结果之前,所述方法还包括:确定所述待分类文本对应的业务标签数量;根据所述业务标签数量确定所述全连接层对应的节点数量。5.根据权利要求1所述的方法,其特征在于,所述根据所述多个特征向量生成所述待分类文本对应的目标向量,包括:对所述多个特征向量进行拼接处理,获得所述目标向量;或者,对所述多个特征向量进行相加处理,获得所述目标向量。6.根据权利要求1所述的方法,其特征在于,所述将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文本对应的多个特征向量之后,所述方法还包括:固定所述预设BERT模型的内部参数。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述待分类文本的字符数量大于或者等于预设数量阈值;其中,所述预设数量阈值用于对文本的长度进行限制。8.根据权利要求1所述的方法,其特征在于,所述将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文本对应的多个特征向量,包括:确定所述多个短文本中的一个短文本对应的子向量、文本向量以及位置向量;根据所述子向量、所述文本向量以及所述位置向量确定输入向量;将所述输入向量输入至所述预设BERT模型中,输出所述一个短文本对应的特征向量;遍历所述多个短文本,获得所述多个特征向量。9.根据权利要求1所述的方法,其特征在于,所述将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文...
【专利技术属性】
技术研发人员:李志强,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。