【技术实现步骤摘要】
一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
本专利技术属于自然语言处理领域,尤其涉及到一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法。
技术介绍
文本分类是自然语言处理的一个热门问题。随着我国经济的持续发展,信息成爆发式增长,由于新闻文本的多样性和复杂性,而且新闻文本的内容交叉、内容相近、类别间相似度较高,以及界限不明确,因此快速对海量的新闻文本进行分类有着重要的意义。近年来,中文文本分类问题研究得到飞速发展,Zhou等将卷积神经网络与长短期记忆网络结合,提出C-LSTM(AC-LSTMNeuralNetworkforTextClassification)文本分类算法,C-LSTM使用卷积神经网络抽取高级的短语表示,然后输入到长短期记忆网络获得句子表示,C-LSTM可以捕获短语的局部特征,句子的语义信息。Lai等将卷积神经网络与循环神经网络结合提出TextRCNN(RecurrentConvolutionalNeuralNetworksforTextClassification)文 ...
【技术保护点】
1.一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法,其特点在于,包括如下步骤:/n步骤S1:数据预处理,对爬取的新闻文本进行清洗,仅保留新闻内容文本长度超过200字的新闻,该数据集包括九万条新闻样本,共分为九类,包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐9类数据;/n数据按照标签+标题、标签+内容的形式进行存储,并将数据集按照训练集80%,验证集10%,测试集10%的比例来划分;/n步骤S2:加载方法所需的词汇表、预训练模型的参数及BERT预训练模型;/n步骤S3:使用新闻标题训练集训练基于BERT的新闻文本分类模型,使用新闻长文本内容训练集训练基 ...
【技术特征摘要】
1.一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法,其特点在于,包括如下步骤:
步骤S1:数据预处理,对爬取的新闻文本进行清洗,仅保留新闻内容文本长度超过200字的新闻,该数据集包括九万条新闻样本,共分为九类,包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐9类数据;
数据按照标签+标题、标签+内容的形式进行存储,并将数据集按照训练集80%,验证集10%,测试集10%的比例来划分;
步骤S2:加载方法所需的词汇表、预训练模型的参数及BERT预训练模型;
步骤S3:使用新闻标题训练集训练基于BERT的新闻文本分类模型,使用新闻长文本内容训练集训练基于BERT和RCNN的新闻文本分类模型;
步骤S4:利用测试集对训练好的基于预训练的新闻文本分类模型进行验证,计算基于预训练的新闻文本分类模型的准确率、召回率和F1值。
2.如权利要求1所述的基于预训练的结合新闻标题和新闻长文本内容的深...
【专利技术属性】
技术研发人员:王贵参,伍俊霖,王红梅,党源源,张丽杰,王桂娟,
申请(专利权)人:长春工业大学,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。