【技术实现步骤摘要】
一种面向汽车舆情的多标签文本分类系统及方法
[0001]本专利技术涉及文本分类领域,特别是涉及一种面向汽车舆情的多标签文本分类系统及方法。
技术介绍
[0002]随着互联网的发展和智能设备的普及,越来越多的网民愿意在社交平台上发表自己的言论,网络舆情对企业的影响也越来越大。其中,汽车行业舆情对于消费者或者生产车间来说都是非常重要的,有效地舆情分析能够帮助企业调研了解市场需求、确定目标用户、确定产品核心以及制订更优的策略,更有助于预测汽车行业的发展前景和投资价值。
[0003]传统的机器学习算法中能用来分类的模型包括NB模型、随机森林模型、SVM分类模型、KNN分类模型以及神经网络分类模型。但是专门针对汽车舆情监测的多标签文本分类方法还有很大的提升空间,一般只是通过情感分析的方法,判断段落的正面情感或负面情感等,从而实现的汽车舆情环境监测,而忽略了舆情信息中包含的对汽车各项参数的微观监测。
[0004]鉴于此,本专利技术提出了一种面向汽车舆情的多标签文本分类方法,并使用获取到的主题标签来实现汽车舆情口碑中优劣表 ...
【技术保护点】
【技术特征摘要】
1.一种面向汽车舆情的多标签文本分类系统,其特征在于,包括数据预处理模块、数据表示模块、多标签分类模块、标签概率评价模块、显示模块,其中:所述数据预处理模块用于对汽车舆情信息进行预处理;所述数据表示模块用于对预处理后的汽车舆情信息进行向量化表示;所述多标签分类模块用于使用数据集构建多标签分类模型,包括构建分类模型和使用分类模型输出标签预测结果两部分;所述标签概率评价模块,根据标签预测结果计算标签预测概率,若所述标签预测概率高于阈值,最终结果则采用标签预测结果,否则标签预测结果将不作为最终结果;所述显示模块,用于对多标签结果进行可视化展示。2.如权利要求1所述的一种面向汽车舆情的多标签文本分类系统,其特征在于,所述预处理的步骤如下:步骤一:数据清洗,用于删除重复或与汽车领域无关的汽车舆情信息;步骤二:句子切分,以篇为单位,对经过数据清洗的汽车舆情信息按照标点符号等标识符切分为句子;步骤三:去停用词,采用词频统计和人工校验的方式,将词频较高且对分类结果无影响的词汇与通用停用词进行组合,构建去停用词表,用于对汽车舆情信息进行去停用词操作;步骤四:one
‑
hot向量化...
【专利技术属性】
技术研发人员:李瑞瑞,于沛,赵伟,
申请(专利权)人:北京富通东方科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。