基于深度学习的实时推文分类方法及系统技术方案

技术编号:40316307 阅读:38 留言:0更新日期:2024-02-07 20:58
本发明专利技术公开了基于深度学习的实时推文分类方法及系统,应用于文本分类,获取原始推文文章标题作为样本数据,根据标题属性对所述样本数据进行类型标注、并进行预处理;建立word2vec模型,并将预处理过的样本数据输入所述word2vec模型进行训练;通过训练好的word2vec模型,将样本数据转换为词向量表示;建立MLP分类器模型,将样本数据传入MLP分类器模型进行模型训练;将待分类数据输入MLP分类器模型,得到最终推文分类结果。由于推文标题文本词的复杂性、多样性以及实时训练的需求,进行推文标题的词向量转换,有利于降低转换过程中的计算和存储成本,提升转换的速率。

【技术实现步骤摘要】

本专利技术涉及文本分类、深度学习,更具体的说是涉及一种基于深度学习的实时推文分类方法及系统


技术介绍

1、随着互联网的快速发展和信息的爆炸性增长,人们在日常生活中越来越依赖于社交平台的推文以获取信息和见解。然而,由于信息的海量性质,许多人在寻找特定类型的推文时面临着挑战。在数据监测与治理方面,了解不同类型的推文对于洞察社会趋势、民意变化以及与研究主题相关的重要事件至关重要。因此,能够自动将推文标题分类的系统变得至关重要。

2、传统上,推文分类的方法主要依赖于手工编写的规则和特征工程。这种方法受限于规则的复杂性和特征工程的主观性,使得其准确性和扩展性受到限制。随着深度学习和神经网络技术的崛起,自动推文分类取得了显著的进展。

3、因此,如何提供一种准确性高的实时推文分类方法及系统是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种基于深度学习的实时推文分类方法及系统,以解决
技术介绍
中的问题。

2、为了实现上述目的,本专利技术提供如下技术方案:...

【技术保护点】

1.基于深度学习的实时推文分类方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,还包括增量训练;所述增量训练具体步骤如下:

3.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,还包括验证过程,样本数据包括训练集数据和验证集数据,获取样本数据中未参与训练的数据作为验证集数据,根据标题属性对所述验证集数据进行类型标注、并进行预处理,通过训练好的word2vec模型,将验证集数据转换为词向量表示,将词向量输入MLP分类器,得到最终推文分类结果,否则,继续利用训练集数据对MLP分类器模型进行训练。

...

【技术特征摘要】

1.基于深度学习的实时推文分类方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,还包括增量训练;所述增量训练具体步骤如下:

3.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,还包括验证过程,样本数据包括训练集数据和验证集数据,获取样本数据中未参与训练的数据作为验证集数据,根据标题属性对所述验证集数据进行类型标注、并进行预处理,通过训练好的word2vec模型,将验证集数据转换为词向量表示,将词向量输入mlp分类器,得到最终推文分类结果,否则,继续利用训练集数据对mlp分类器模型进行训练。

4.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,获取原始推文标题作为样本数据后,根据标题属性对所述样本数据进行类型标注,分别标注为娱乐、体育、政治、军事、科技、自然、生活、教育。

5.根据权利要求3所述的基于深度学习的实时推文分类方法,其特征在于,对样本数据进行预处理的过程包括:数据增强与数据清洗;其中

6.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,建立word2vec模型具体步骤如下:

7.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,建立m...

【专利技术属性】
技术研发人员:赵芸伟韩晗刘美辰王鲁华
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1