【技术实现步骤摘要】
一种基于深度学习的短新闻文本集成学习分类方法
[0001]本专利技术属于自然语言处理领域,尤其涉及到一种基于深度学习的短新闻文本集成学习分类方法。
技术介绍
[0002]文本分类是自然语言处理的一个热门问题。随着我国经济的持续发展,信息成爆发式增长,特别是大量自媒体和短视频平台的出现,网络上涌现了大量的短文本信息,而这些短文本涉及到了关于社会、经济、教育、科技等众多新闻类别信息。由于新闻文本的多样性和复杂性,而且新闻文本的内容交叉、内容相近、类别间相似度较高,以及界限不明确,并且短文本具有篇幅短小、特征稀疏和文本形式不规范的特点,因此如何从这些短文本信息中提取信息并对其进行分类成为了现在研究的一个热点。
[0003]而基于文本分类的经典算法有TextCNN、TextRNN、TextRCNN等,这些算法针对文本分类的高维数据、文本语序和减少时间等方面进行优化,因为CNN可以抽取局部的空间或短时间的结构关系,对于句子模型,CNN对于抽取句子中不同位置的n
‑
元特征具有很好的能力,并且可以通过poolin ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的短新闻文本集成学习分类方法,其特点在于,包括如下步骤:步骤S1:数据预处理,对爬取的新闻文本进行清洗,仅保留新闻内容文本长度不多于32字的新闻,该数据集包括九万条新闻样本,共分为九类,包括财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐9类数据;并将数据集按照训练集80%,验证集10%,测试集10%的比例来划分;步骤S2:加载方法所需的词汇表、设置训练模型的超参数;步骤S3:训练模型;步骤S4:利用测试集对训练好的新闻文本分类模型进行集成验证,计算基于预训练的新闻文本分类模型的准确率、召回率和F1值。2.如权利要求1所述的基于深度学习的短新闻文本集...
【专利技术属性】
技术研发人员:王贵参,伍俊霖,王红梅,党源源,张丽杰,吴爽,
申请(专利权)人:长春工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。