【技术实现步骤摘要】
文本分类方法及系统、电子设备、计算机可读存储介质
本专利技术涉及自然语言处理
,特别涉及一种基于BERT预训练模型的文本分类方法及系统、电子设备、计算机可读存储介质。
技术介绍
文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。目前常用BERT(BidirectionalEncoderRepresentationsfromTransformers)预训练模型进行文本分类。BERT是最近谷歌公司发布的基于双向Transformer的大规模预训练语言模型,该预训练模型能分别捕捉词语和句子级别的表示,高效抽取文本信息并应用于各种NLP任务。BERT预训练模型一般需要强大计算能力和大量的语料花费大量时间才能训练完成,所以一般由大型公司如谷歌公司等训练完成,其他用户只需要通过下载训练好的预训练模型微调(finetuning)使用,经过微调后,BERT直接取第一个[CLS]token的finalhiddenstate加一层权重后通过softmax预测各个类别标签的可能性,取可能性最高的标签作为分类标签,完成文本 ...
【技术保护点】
1.一种基于BERT预训练模型的文本分类方法,其特征在于,包括以下步骤:/n收集各种文本类型的关键词,并构成关键词集;/n对准备的文本语料的类别进行标注,以及基于关键词集对文本语料中的关键词进行标注;/n以标注后的文本语料中的关键词为对象,对标注后的文本语料进行序列标注;/n将关键词表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值;/n将处理后的文本语料送入BERT预训练模型进行微调,关键词表示层同时训练,得到训练好的分类模型以及关键词表示层的向量矩阵;/n将待分类文本输入训练好的分类模型进行推理,以及将待分类文本中的关键词通过所述向量矩阵索引输入,输出得到分类结果。/n
【技术特征摘要】
1.一种基于BERT预训练模型的文本分类方法,其特征在于,包括以下步骤:
收集各种文本类型的关键词,并构成关键词集;
对准备的文本语料的类别进行标注,以及基于关键词集对文本语料中的关键词进行标注;
以标注后的文本语料中的关键词为对象,对标注后的文本语料进行序列标注;
将关键词表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值;
将处理后的文本语料送入BERT预训练模型进行微调,关键词表示层同时训练,得到训练好的分类模型以及关键词表示层的向量矩阵;
将待分类文本输入训练好的分类模型进行推理,以及将待分类文本中的关键词通过所述向量矩阵索引输入,输出得到分类结果。
2.根据权利要求1所述的基于BERT预训练模型的文本分类方法,其特征在于,对标注后的文本语料进行序列标注时,采用BIEO标注法对文本语料进行序列标注。
3.一种基于BERT预训练模型的文本分类系统,其特征在于,包括文本分类装置和预下载的BERT预训练模型,所述文本分类装置包括:
关键词收集模块:收集各种文本类型的关键词,并构成关键词集;
人工标注模块:对准备的文本语...
【专利技术属性】
技术研发人员:罗镇权,刘世林,张发展,李焕,曾途,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。