文本分类方法及系统、电子设备、计算机可读存储介质技术方案

技术编号:24169067 阅读:41 留言:0更新日期:2020-05-16 02:21
本发明专利技术涉及一种文本分类方法及系统、电子设备、计算机可读存储介质,该文本分类方法是增加BERT预训练模型的输入层并参与训练,并基于训练后得到的分类模型对待分类文本进行分类识别;增加的输入层为辅助分类识别的特征表示层。本发明专利技术通过增加BERT预训练模型的输入层的方式,增加了模型文本分类识别时的参考特征量,因此可以提高文本分类的准确性。另外,本发明专利技术没有对BERT预训练模型的结构进行改变,因此无需请求提供BERT预训练模型的谷歌公司等对BERT模型进行改进,即本发明专利技术方法并不受基础模型提供公司的限制,也不存在任何不便利性的问题。

Text classification method and system, electronic equipment, computer readable storage medium

【技术实现步骤摘要】
文本分类方法及系统、电子设备、计算机可读存储介质
本专利技术涉及自然语言处理
,特别涉及一种基于BERT预训练模型的文本分类方法及系统、电子设备、计算机可读存储介质。
技术介绍
文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。目前常用BERT(BidirectionalEncoderRepresentationsfromTransformers)预训练模型进行文本分类。BERT是最近谷歌公司发布的基于双向Transformer的大规模预训练语言模型,该预训练模型能分别捕捉词语和句子级别的表示,高效抽取文本信息并应用于各种NLP任务。BERT预训练模型一般需要强大计算能力和大量的语料花费大量时间才能训练完成,所以一般由大型公司如谷歌公司等训练完成,其他用户只需要通过下载训练好的预训练模型微调(finetuning)使用,经过微调后,BERT直接取第一个[CLS]token的finalhiddenstate加一层权重后通过softmax预测各个类别标签的可能性,取可能性最高的标签作为分类标签,完成文本分类任务,且具有较高本文档来自技高网...

【技术保护点】
1.一种基于BERT预训练模型的文本分类方法,其特征在于,包括以下步骤:/n收集各种文本类型的关键词,并构成关键词集;/n对准备的文本语料的类别进行标注,以及基于关键词集对文本语料中的关键词进行标注;/n以标注后的文本语料中的关键词为对象,对标注后的文本语料进行序列标注;/n将关键词表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值;/n将处理后的文本语料送入BERT预训练模型进行微调,关键词表示层同时训练,得到训练好的分类模型以及关键词表示层的向量矩阵;/n将待分类文本输入训练好的分类模型进行推理,以及将待分类文本中的关键词通过所述向量矩阵索引输入,输出得到分类结果。/n

【技术特征摘要】
1.一种基于BERT预训练模型的文本分类方法,其特征在于,包括以下步骤:
收集各种文本类型的关键词,并构成关键词集;
对准备的文本语料的类别进行标注,以及基于关键词集对文本语料中的关键词进行标注;
以标注后的文本语料中的关键词为对象,对标注后的文本语料进行序列标注;
将关键词表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值;
将处理后的文本语料送入BERT预训练模型进行微调,关键词表示层同时训练,得到训练好的分类模型以及关键词表示层的向量矩阵;
将待分类文本输入训练好的分类模型进行推理,以及将待分类文本中的关键词通过所述向量矩阵索引输入,输出得到分类结果。


2.根据权利要求1所述的基于BERT预训练模型的文本分类方法,其特征在于,对标注后的文本语料进行序列标注时,采用BIEO标注法对文本语料进行序列标注。


3.一种基于BERT预训练模型的文本分类系统,其特征在于,包括文本分类装置和预下载的BERT预训练模型,所述文本分类装置包括:
关键词收集模块:收集各种文本类型的关键词,并构成关键词集;
人工标注模块:对准备的文本语...

【专利技术属性】
技术研发人员:罗镇权刘世林张发展李焕曾途
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1