文本分类方法及装置制造方法及图纸

技术编号:24409968 阅读:71 留言:0更新日期:2020-06-06 08:45
本申请公开了文本分类方法及装置,涉及文本处理技术领域。具体实现方案为:获取待进行分类的文本;将文本输入预设的长文本识别模型,获取文本对应的向量序列;长文本识别模型包括:向量化模型和动态自注意力模型;将文本对应的向量序列输入预设的向量拼接模型,获取文本对应的向量;将文本对应的向量输入预设的分类模型,获取文本对应的分类结果,从而能够对超过预设字数的长文本进行分类处理,避免文本信息的丢失,提高文本分类的准确度。

Text classification method and device

【技术实现步骤摘要】
文本分类方法及装置
本申请涉及数据处理
,具体涉及文本处理
,尤其涉及文本分类方法及装置。
技术介绍
目前,针对不同特征信息,例如标题以及正文的文本分类方法,主要是采用BERT模型等。BERT模型,由于GPU显存的限制,在预训练阶段和微调阶段通常会对输入文本超过512的字进行截断处理,对截断处理后的文本进行分类。上述BERT模型会对文本超过512的字进行截断处理,丢失文本信息,从而降低了文本分类的准确度。
技术实现思路
本申请提出一种文本分类方法及装置,将待进行分类的文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;将所述文本对应的向量序列输入依次连接的向量拼接模型和分类模型,获取分类结果,其中,动态自注意力模型能够从超过预设字数的文本中抽取预设字数,从而不需要对文本进行截断处理,避免丢失文本信息,提高文本分类的准确度。本申请一方面实施例提出了一种文本分类方法,包括:获取待进行分类的文本;将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量;将所述文本对应的向量输入预设的分类模型,获取所述文本对应的分类结果。在本申请一个实施例中,所述文本包括:标题以及正文;所述向量拼接模型包括:依次连接的池化注意力模型和全连接层;所述将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量,包括:获取所述向量序列中标题对应的向量序列以及正文对应的向量序列;将标题对应的向量序列以及正文对应的向量序列输入依次连接的池化注意力模型和全连接层,获取所述文本对应的向量;所述文本对应的向量,根据标题对应的向量序列、标题对文本的重要性、正文对应的向量序列以及正文对文本的重要性确定。在本申请一个实施例中,所述将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列之前,还包括:获取预训练数据,所述预训练数据包括:大于预设数量的文本;采用所述预训练数据对初始的长文本识别模型进行训练,得到经过预训练的长文本识别模型;获取微调训练数据,所述微调训练数据包括:文本以及对应的分类;采用所述微调训练数据,对所述经过预训练的长文本识别模型、初始的向量拼接模型以及初始的分类模型进行训练,得到所述预设的长文本识别模型、所述预设的向量拼接模型以及所述预设的分类模型。在本申请一个实施例中,所述长文本识别模型为语义表示模型BERT。本申请实施例的文本分类方法,通过获取待进行分类的文本;将文本输入预设的长文本识别模型,获取文本对应的向量序列;长文本识别模型包括:向量化模型和动态自注意力模型;将文本对应的向量序列输入预设的向量拼接模型,获取文本对应的向量;将文本对应的向量输入预设的分类模型,获取文本对应的分类结果,从而能够对超过预设字数的长文本进行分类处理,避免文本信息的丢失,提高文本分类的准确度。本申请另一方面实施例提出了一种文本分类装置,包括:获取模块,用于获取待进行分类的文本;第一输入模块,用于将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;第二输入模块,用于将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量;第三输入模块,用于将所述文本对应的向量输入预设的分类模型,获取所述文本对应的分类结果。在本申请一个实施例中,所述文本包括:标题以及正文;所述向量拼接模型包括:依次连接的池化注意力模型和全连接层;所述第二输入模块具体用于,获取所述向量序列中标题对应的向量序列以及正文对应的向量序列;将标题对应的向量序列以及正文对应的向量序列输入依次连接的池化注意力模型和全连接层,获取所述文本对应的向量;所述文本对应的向量,根据标题对应的向量序列、标题对文本的重要性、正文对应的向量序列以及正文对文本的重要性确定。在本申请一个实施例中,所述的装置还包括:预训练模块和训练模块;所述获取模块,还用于获取预训练数据,所述预训练数据包括:大于预设数量的文本;所述预训练模块,用于采用所述预训练数据对初始的长文本识别模型进行训练,得到经过预训练的长文本识别模型;所述获取模块,还用于获取微调训练数据,所述微调训练数据包括:文本以及对应的分类;所述训练模块,用于采用所述微调训练数据,对所述经过预训练的长文本识别模型、初始的向量拼接模型以及初始的分类模型进行训练,得到所述预设的长文本识别模型、所述预设的向量拼接模型以及所述预设的分类模型。在本申请一个实施例中,所述长文本识别模型为语义表示模型BERT。本申请实施例的文本分类装置,通过获取待进行分类的文本;将文本输入预设的长文本识别模型,获取文本对应的向量序列;长文本识别模型包括:向量化模型和动态自注意力模型;将文本对应的向量序列输入预设的向量拼接模型,获取文本对应的向量;将文本对应的向量输入预设的分类模型,获取文本对应的分类结果,从而能够对超过预设字数的长文本进行分类处理,避免文本信息的丢失,提高文本分类的准确度。本申请另一方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例的文本分类方法。本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请实施例的文本分类方法。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的示意图;图2是预训练的示意图;图3是训练的示意图;图4是根据本申请第二实施例的示意图;图5是根据本申请第三实施例的示意图;图6是根据本申请第四实施例的示意图;图7是用来实现本申请实施例的文本分类方法的电子设备的框图;具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。下面参考附图描述本申请实施例的文本分类方法及装置。图1是根据本申请第一实施例的示意图。其中,需要说明的是,本实施例提供的文本分类方法的执行主体为文本分类装置,该装置可以由软件和/或硬件的方式实本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n获取待进行分类的文本;/n将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;/n将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量;/n将所述文本对应的向量输入预设的分类模型,获取所述文本对应的分类结果。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
获取待进行分类的文本;
将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;
将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量;
将所述文本对应的向量输入预设的分类模型,获取所述文本对应的分类结果。


2.根据权利要求1所述的方法,其特征在于,所述文本包括:标题以及正文;
所述向量拼接模型包括:依次连接的池化注意力模型和全连接层;
所述将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量,包括:
获取所述向量序列中标题对应的向量序列以及正文对应的向量序列;
将标题对应的向量序列以及正文对应的向量序列输入依次连接的池化注意力模型和全连接层,获取所述文本对应的向量;所述文本对应的向量,根据标题对应的向量序列、标题对文本的重要性、正文对应的向量序列以及正文对文本的重要性确定。


3.根据权利要求1所述的方法,其特征在于,所述将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列之前,还包括:
获取预训练数据,所述预训练数据包括:大于预设数量的文本;
采用所述预训练数据对初始的长文本识别模型进行训练,得到经过预训练的长文本识别模型;
获取微调训练数据,所述微调训练数据包括:文本以及对应的分类;
采用所述微调训练数据,对所述经过预训练的长文本识别模型、初始的向量拼接模型以及初始的分类模型进行训练,得到所述预设的长文本识别模型、所述预设的向量拼接模型以及所述预设的分类模型。


4.根据权利要求1所述的方法,其特征在于,所述长文本识别模型为语义表示模型BERT。


5.一种文本分类装置,其特征在于,包括:
获取模块,用于获取待进行分类的文本;
第一输入模块,用于将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;

【专利技术属性】
技术研发人员:高参刘昊何伯磊肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1