基于预训练模型变种的新闻文本分类方法及系统技术方案

技术编号:32125669 阅读:16 留言:0更新日期:2022-01-29 19:13
本发明专利技术公开了一种基于预训练模型变种的新闻文本分类方法及系统,属于文本分类领域。本发明专利技术采用BERT和RNN复合模型对数据集中的特征进行有效提取,对于已经经过预训练的BERT模型,其广泛适用于下游任务的各个集合,不需要利用重复数据进行训练,同时基于self

【技术实现步骤摘要】
基于预训练模型变种的新闻文本分类方法及系统


[0001]本专利技术涉及大数据分析
,特别是涉及一种基于预训练模型变种的新闻文本分类方法。

技术介绍

[0002]随着互联网新闻领域的蓬勃发展,越来越多的人们习惯在移动设备上浏览新闻,同时随着网络信息的快速增长,人们接受的新闻内容信息是有限的,同时对于网络新闻分类一直是自然语言处理领域中的经典问题,对于新闻这类长文本分类的研究已经相对比较透彻,但是其中依然有非常多的细节和商业化实现过程中会遇到的很多额外的困难需要考虑,传统的人工标注分类的方法不仅容易更加费时费力,而且容易误判,所以如何快速准确判断新闻文本分类的类别在自然语言处理领域一直是比较有挑战性的问题,涉及到自然语言处理,数据挖掘,机器学习等多个领域的学科技术和方法。
[0003]现有的技术文献中,一般是基于传统的卷积神经网络分类和基于统计的机器学习分类方法,对于已经成熟的文本语料库误差还是存在分类准确率不够高,同时对于最新的新闻语料分类效果不是很好,导致在传统领域对比人工标注分类仍有不足。

技术实现思路

[0004]本专利技术的目的是提供一种基于预训练模型变种的新闻文本分类方法,从而解决现有技术中分类存在的前述问题。
[0005]为实现上述专利技术目的,本专利技术所采用的具体技术方案如下:
[0006]第一方面,本专利技术提供了一种基于预训练模型变种的新闻文本分类方法,其包括如下步骤:
[0007]S1、获取标注有类别标签的新闻文本语料,形成分类语料库;
>[0008]S2、利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;
[0009]S3、将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。
[0010]作为优选,所述S1中,利用爬虫爬取新闻网站中的新闻主题作为文本信息,利用新闻网站的分类新闻窗口对文本进行分类,得到分类语料库。
[0011]作为优选,所述新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。
[0012]作为优选,所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。
[0013]作为优选,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。
[0014]第二方面,本专利技术提供一种基于预训练模型变种的新闻文本分类系统,其包括:
[0015]数据获取模块:用于获取标注有类别标签的新闻文本语料,形成分类语料库;
[0016]模型训练模块:用于利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;
[0017]分类模块:用于将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。
[0018]作为优选,所述数据获取模中,利用爬虫爬取新闻网站中的新闻主题作为文本信息,利用新闻网站的分类新闻窗口对文本进行分类,得到分类语料库。
[0019]作为优选,所述新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。
[0020]作为优选,所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。
[0021]作为优选,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。
[0022]相对于现有技术而言,本专利技术采用BERT和RNN复合模型对数据集中的特征进行有效提取,对于已经经过预训练的BERT模型,其广泛适用于下游任务的各个集合,不需要利用重复数据进行训练,同时基于self

attention机制可以有效的可以不仅可以得到源端与目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系。在此基础上,引入了RNN模型,用于捕捉长距离文本依赖上信息丢失的问题,对结果进行特征融合,在新闻文本分类上取得了较为理想的效果。
附图说明
[0023]图1为基于预训练模型变种的新闻文本分类方法的步骤流程示意图。
[0024]图2是本专利技术的BERT

RNN的模型结构示意图。
[0025]图3是TextRNN模型中的Attention机制示意图。
具体实施方式
[0026]下面结合附图和具体实施方式对本专利技术做进一步阐述和说明。本专利技术中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
[0027]下面结合具体实施案例,进一步阐述本专利技术。应理解,这些案例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或者修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0028]如图1所示,在本专利技术的一个较佳实施例中,提供了一种基于预训练模型变种的新闻文本分类方法,其包括如下步骤:
[0029]S1、获取标注有类别标签的新闻文本语料,形成分类语料库。
[0030]作为本实施例中的实现形式,先利用爬虫爬取新闻网站,获取新闻主题作为文本信息,从而形成初始数据集S0={s1,s2,s3,

sN},其中,si为所述初始数据集中的第i个新闻文本,i=1,2,

N,N为初始数据集中的文本总数。然后根据每个新闻文本在新闻网站中所处的分类新闻窗口对文本进行分类,例如分为时事类、军事类、科技类、财经类等等,由此得到分类语料库。假设总的分类类别为n,则可将初始数据集划分为子类集D0={d1,d2,d3,

dn},dj为第j类新闻文本,j=1,2,

n。
[0031]S2、基于用于语言理解的深度双向Transformer预训练(Pre

training of Deep Bidirectional Transformers for Language Understanding)中的BERT(Bidirectional Encoder Representations from Transformers)和循环神经网络RNN级联来构本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型变种的新闻文本分类方法,其特征在于,包括如下步骤:S1、获取标注有类别标签的新闻文本语料,形成分类语料库;S2、利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;S3、将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。2.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,所述S1中,利用爬虫爬取新闻网站中的新闻主题作为文本信息,利用新闻网站的分类新闻窗口对文本进行分类,得到分类语料库。3.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,所述新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。4.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。5.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。6.一种基于预训练模型变...

【专利技术属性】
技术研发人员:黄孝喜童伟王荣波谌志群姚金良
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1