【技术实现步骤摘要】
文本分类方法及装置
本申请涉及数据处理
,具体涉及文本处理
,尤其涉及文本分类方法及装置。
技术介绍
目前,针对不同特征信息,例如标题以及正文的文本分类方法,主要是采用BERT模型等。BERT模型,由于GPU显存的限制,在预训练阶段和微调阶段通常会对输入文本超过512的字进行截断处理,对截断处理后的文本进行分类。上述BERT模型会对文本超过512的字进行截断处理,丢失文本信息,从而降低了文本分类的准确度。
技术实现思路
本申请提出一种文本分类方法及装置,将待进行分类的文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;将所述文本对应的向量序列输入依次连接的向量拼接模型和分类模型,获取分类结果,其中,动态自注意力模型能够从超过预设字数的文本中抽取预设字数,从而不需要对文本进行截断处理,避免丢失文本信息,提高文本分类的准确度。本申请一方面实施例提出了一种文本分类方法,包括:获取待进行分类的文本;将所述文本输 ...
【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n获取待进行分类的文本;/n将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;/n将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量;/n将所述文本对应的向量输入预设的分类模型,获取所述文本对应的分类结果。/n
【技术特征摘要】 【专利技术属性】
1.一种文本分类方法,其特征在于,包括:
获取待进行分类的文本;
将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;
将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量;
将所述文本对应的向量输入预设的分类模型,获取所述文本对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述文本包括:标题以及正文;
所述向量拼接模型包括:依次连接的池化注意力模型和全连接层;
所述将所述文本对应的向量序列输入预设的向量拼接模型,获取所述文本对应的向量,包括:
获取所述向量序列中标题对应的向量序列以及正文对应的向量序列;
将标题对应的向量序列以及正文对应的向量序列输入依次连接的池化注意力模型和全连接层,获取所述文本对应的向量;所述文本对应的向量,根据标题对应的向量序列、标题对文本的重要性、正文对应的向量序列以及正文对文本的重要性确定。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列之前,还包括:
获取预训练数据,所述预训练数据包括:大于预设数量的文本;
采用所述预训练数据对初始的长文本识别模型进行训练,得到经过预训练的长文本识别模型;
获取微调训练数据,所述微调训练数据包括:文本以及对应的分类;
采用所述微调训练数据,对所述经过预训练的长文本识别模型、初始的向量拼接模型以及初始的分类模型进行训练,得到所述预设的长文本识别模型、所述预设的向量拼接模型以及所述预设的分类模型。
4.根据权利要求1所述的方法,其特征在于,所述长文本识别模型为语义表示模型BERT。
5.一种文本分类装置,其特征在于,包括:
获取模块,用于获取待进行分类的文本;
第一输入模块,用于将所述文本输入预设的长文本识别模型,获取所述文本对应的向量序列;所述长文本识别模型包括:向量化模型和动态自注意力模型;
技术研发人员:高参,刘昊,何伯磊,肖欣延,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。