长文本的分类方法、终端及计算机存储介质技术

技术编号:27254394 阅读:22 留言:0更新日期:2021-02-04 12:33
本申请实施例公开了一种长文本的分类方法、终端及计算机存储介质,所述方法包括:确定待分类文本中的标点符号,并基于标点符号获得待分类文本对应的多个短文本;其中,多个短文本中的每两个连续的文本存在重叠的字符;将多个短文本依次输入至预设BERT模型中,输出多个短文本对应的多个特征向量;根据多个特征向量生成待分类文本对应的目标向量;将目标向量输入至全连接层,输出待分类文本对应的分类结果。果。果。

【技术实现步骤摘要】
长文本的分类方法、终端及计算机存储介质


[0001]本专利技术涉及信息处理
,尤其涉及一种长文本的分类方法、终端及计算机存储介质。

技术介绍

[0002]基于多头自注意力机制的双向编码语言模型(Bidirectional Encoder Representations from Transformers,BERT)的新语言表示模型,它代表Transformer的双向编码器表示。与常见的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调(fine-tuning),适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。
[0003]目前,为了对BERT的计算量进行控制,需要限制输入至BERT模型的文本长度,因此,在使用BERT模型进行长文本的分类时,会存在信息丢失的风险。也就是说,对于长文本的分类问题,往往无法利用BERT模型获得满意的分类结果。

技术实现思路

[0004]本申请实施例提供了一种长文本的分类方法、终端及计算机存储介质,可以在解决BERT限制文本输入长度的问题的同时,避免文本信息的丢失,大大提高分类处理的准确性。
[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供了一种长文本的分类方法,所述方法包括:
[0007]确定所述待分类文本中的标点符号,并基于所述标点符号获得所述待分类文本对应的多个短文本;其中,所述多个短文本中的每两个连续的文本存在重叠的字符;
[0008]将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文本对应的多个特征向量;
[0009]根据所述多个特征向量生成所述待分类文本对应的目标向量;
[0010]将所述目标向量输入至全连接层,输出所述待分类文本对应的分类结果。
[0011]第二方面,本申请实施例提供了一种终端,所述终端包括:确定单元、获取单元、输入单元、输出单元以及生成单元,
[0012]所述确定单元,用于确定所述待分类文本中的标点符号;
[0013]所述获取单元,用于基于所述标点符号获得所述待分类文本对应的多个短文本;其中,所述多个短文本中的每两个连续的文本存在重叠的字符;
[0014]所述输入单元,用于将所述多个短文本依次输入至预设BERT模型中;
[0015]所述输出单元,用于输出所述多个短文本对应的多个特征向量;
[0016]所述生成单元,用于根据所述多个特征向量生成所述待分类文本对应的目标向量;
[0017]所述输入单元,还用于将所述目标向量输入至全连接层;
[0018]所述输出单元,还用于输出所述待分类文本对应的分类结果。
[0019]第三方面,本申请实施例提供了一种终端,所述终端包括处理器、存储有所述处理器可执行指令的存储器,当所述指令被所述处理器执行时,实现如上所述的长文本的分类方法。
[0020]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现如上所述的长文本的分类方法。
[0021]本申请实施例提供了一种长文本的分类方法、终端及计算机存储介质,终端确定待分类文本中的标点符号,并基于标点符号获得待分类文本对应的多个短文本;其中,多个短文本中的每两个连续的文本存在重叠的字符;将多个短文本依次输入至预设BERT模型中,输出多个短文本对应的多个特征向量;根据多个特征向量生成待分类文本对应的目标向量;将目标向量输入至全连接层,输出待分类文本对应的分类结果。也就是说,在本申请的实施例中,终端通过对长文本进行分割处理,获得存在上下文联系的、具有重叠字符的多个短文本,然后基于多个短文本,利用预设BERT模型和全连接层进行分类处理,获得分类结果,从而可以在解决BERT限制文本输入长度的问题的同时,避免文本信息的丢失,大大提高分类处理的准确性。
附图说明
[0022]图1为BERT的网络结构示意图;
[0023]图2为Transformer的网络结构的编码器的示意图;
[0024]图3为BERT模型的输入表示;
[0025]图4为BERT的整体预训练和微调程序;
[0026]图5为本申请实施例提出的长文本的分类方法的实现流程示意图一;
[0027]图6为本申请实施例提出的长文本的分类方法的实现流程示意图二;
[0028]图7为本申请实施例提出的长文本的分类方法的实现流程示意图三;
[0029]图8为本申请实施例提出的长文本的分类方法的实现流程示意图四;
[0030]图9为本申请实施例提出的长文本的分类方法的实现流程示意图五;
[0031]图10为本申请实施例提出的长文本的分类方法的实现流程示意图六;
[0032]图11为本申请实施例提出的终端组成结构示意图一;
[0033]图12为本申请实施例提出的终端组成结构示意图二。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
[0035]BERT是由谷歌在2018年提出的预训练模型,即双向Transformer的编码(Encoder),因为解码(decoder)是不能获要预测的信息的。该模型的主要创新点都在pre-train方法上,即用了掩码语言模型(Masked Language Model,MLM)和预测下一个句子(Next Sentence Prediction,NSP)两种方法分别捕捉词语和句子级别的表述。
[0036]具体地,BERT采用和(Generative pre-trained transformer,GPT)完全相同的两阶段模型,首先是语言模型预训练;其次是使用Fine-Tuning模式解决下游任务。和GPT的最主要不同在于在预训练阶段采用了类似ELMO的双向语言模型,即双向的Transformer,当然另外一点是语言模型的数据规模要比GPT大。
[0037]图1为BERT的网络结构示意图,如图1所示,BERT提供了简单和复杂两个模型,对应的超参数分别如下:
[0038]BERT-base:L=12,H=768,A=12,参数总量110M;(与GPT持平)
[0039]BERT-large:L=24,H=1024,A=16,参数总量340M。
[0040]其中,L表示网络的层数(即Transformer blocks的数量),A表示Multi-Head Attention中self-Attention的数量,filter的尺寸是4H。
[0041]作为一个Word2Vec的替代者,BERT在自然语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本的分类方法,其特征在于,所述方法包括:确定所述待分类文本中的标点符号,并基于所述标点符号获得所述待分类文本对应的多个短文本;其中,所述多个短文本中的每两个连续的文本存在重叠的字符;将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文本对应的多个特征向量;根据所述多个特征向量生成所述待分类文本对应的目标向量;将所述目标向量输入至全连接层,输出所述待分类文本对应的分类结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述标点符号获得所述待分类文本对应的多个短文本,包括:按照所述标点符号对所述待分类文本进行分割处理,获得分割后文本;对所述分割后文本中的任意两个连续文本进行组合处理,获得所述多个短文本。3.根据权利要求1或2所述的方法,其特征在于,所述确定所述待分类文本中的标点符号,并基于所述标点符号获得所述待分类文本对应的多个短文本,包括:识别所述待分类文本中的k个标点符号;其中,k为大于或者等于1的整数;基于所述标点符号获得所述待分类文本对应的m个短文本;其中,m为小于k的整数。4.根据权利要求1所述的方法,其特征在于,所述将所述目标向量输入至全连接层,输出所述待分类文本对应的分类结果之前,所述方法还包括:确定所述待分类文本对应的业务标签数量;根据所述业务标签数量确定所述全连接层对应的节点数量。5.根据权利要求1所述的方法,其特征在于,所述根据所述多个特征向量生成所述待分类文本对应的目标向量,包括:对所述多个特征向量进行拼接处理,获得所述目标向量;或者,对所述多个特征向量进行相加处理,获得所述目标向量。6.根据权利要求1所述的方法,其特征在于,所述将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文本对应的多个特征向量之后,所述方法还包括:固定所述预设BERT模型的内部参数。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述待分类文本的字符数量大于或者等于预设数量阈值;其中,所述预设数量阈值用于对文本的长度进行限制。8.根据权利要求1所述的方法,其特征在于,所述将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文本对应的多个特征向量,包括:确定所述多个短文本中的一个短文本对应的子向量、文本向量以及位置向量;根据所述子向量、所述文本向量以及所述位置向量确定输入向量;将所述输入向量输入至所述预设BERT模型中,输出所述一个短文本对应的特征向量;遍历所述多个短文本,获得所述多个特征向量。9.根据权利要求1所述的方法,其特征在于,所述将所述多个短文本依次输入至预设BERT模型中,输出所述多个短文...

【专利技术属性】
技术研发人员:李志强
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1