【技术实现步骤摘要】
基于BERT的文本分类方法和装置
[0001]本申请涉及人工智能领域,尤其涉及一种基于BERT的文本分类方法和装置。
技术介绍
[0002]文本分类是从属于自然语言处理(Natural Language Processing,NLP)范畴内的高频研究对象。它为给定的文本文档匹配最相关的标签,并广泛用于审阅分类、标签推荐、信息检索等领域,使用场景非常广泛。
[0003]文本分类方法有很多,传统的文本分类方法中,具有代表性的是Luhn等人提出的一种利用统计方法进行文本信息的机械化编码与搜索方法。而随着机器学习和深度学习的发展,很多具有更好效果的文本分类方法得到了大规模应用,基于机器学习的文本分类方法,经典的模型是Word2Vec。基于深度学习的文本分类方法,经典的模型包括LSTM、Transformer、BERT等。
[0004]BERT模型于2018年提出,该模型是一种双向多头自注意力编码器组成的深层预训练模型。与同样属于预训练模型的word2vec相比,由于BERT层数足够深,所以能学习到更高级的语义信息。B ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT的文本分类方法,其特征在于,所述方法包括:将获取的预测用的原始样本数据输入到训练完成的BERT预测模型中,以及通过所述训练完成的BERT预测模型对所述预测用的原始样本数据进行文本分类,其中,所述训练完成的BERT预测模型是通过以下方式获得的:对获取的训练用的原始样本数据进行自适应预处理,得到训练用的输入样本;通过动态学习率机制和分层自适应调节机制构建第一BERT预测模型;通过所述第一BERT预测模型将所述训练用的输入样本转换为输入序列;根据所述训练用的输入样本和所述输入序列生成对抗输入样本;以及使用所述对抗输入样本和所述训练用的输入样本对所述第一BERT预测模型进行对抗训练,以得到训练完成的BERT预测模型。2.根据权利要求1所述的文本分类方法,其特征在于,对获取的训练用的原始样本数据进行自适应预处理,得到训练用的输入样本包括:根据所述训练用的原始样本数据的样本原始长度对所述训练用的原始样本数据进行自适应预处理,得到所述训练用的输入样本,其中,在所述样本原始长度不超过预设的最大长度时进行padding补齐来获取所述训练用的输入样本;在所述样本原始长度超过所述预设的最大长度时,根据预设的样本首部长度和预设的样本尾部长度来获取所述训练用的输入样本。3.根据权利要求1所述的文本分类方法,其特征在于,通过动态学习率机制和分层自适应调节机制构建第一BERT预测模型包括:采用动态学习率机制和分层自适应调节机制对基于BERT的预训练模型进行微调训练,以构建第一BERT预测模型。4.根据权利要求3所述的文本分类方法,其特征在于,采用所述动态学习率机制对基于BERT的预训练模型进行微调训练包括:根据所述基于BERT的预训练模型的损失率降低的速度来判定所述基于BERT的预训练模型处于第一阶段或第二阶段或第三阶段;根据判定结果确定所述基于BERT的预训练模型在所述第一阶段或在所述第二阶段或在所述第三阶段的学习率。5.根据权利要求4所述的文本分类方法,其特征在于,根据判定结果确定所述基于BERT的预训练模型在所述第一阶段或在所述第二阶段或在所述第三阶段的学习率包括:当判定所述基于BERT的预训练模型处于所述第一阶段时,确定所述基于BERT的预训练模型的学习率从小学习率η
min
上升到最大学习率η
max
;当判定所述基于BERT的预训练模型...
【专利技术属性】
技术研发人员:张钢,陈永录,仇国龙,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。