本发明专利技术提出了一种面向汽车舆情的多标签文本分类系统及方法,涉及汽车舆情智能监测里,方法包括:一种面向汽车舆情的多标签文本分类系统,其特征在于,包括数据预处理模块、数据表示模块、多标签分类模块、标签概率评价模块、显示模块。数据预处理模块用于对汽车舆情信息进行预处理;数据表示模块用于对预处理后的汽车舆情信息进行向量化表示;多标签分类模块用于使用数据集构建多标签分类模型;标签概率评价模块用于根据预测结果进行计算标签预测概率得到最终结果;显示模块用于对多标签结果进行可视化展示。实现了对汽车舆情的多标签分类,并改进了现有方法所需模型构建时间较长的问题,并且模型的编码能力和准确率较现有方法有很大的提高。法有很大的提高。法有很大的提高。
【技术实现步骤摘要】
一种面向汽车舆情的多标签文本分类系统及方法
[0001]本专利技术涉及文本分类领域,特别是涉及一种面向汽车舆情的多标签文本分类系统及方法。
技术介绍
[0002]随着互联网的发展和智能设备的普及,越来越多的网民愿意在社交平台上发表自己的言论,网络舆情对企业的影响也越来越大。其中,汽车行业舆情对于消费者或者生产车间来说都是非常重要的,有效地舆情分析能够帮助企业调研了解市场需求、确定目标用户、确定产品核心以及制订更优的策略,更有助于预测汽车行业的发展前景和投资价值。
[0003]传统的机器学习算法中能用来分类的模型包括NB模型、随机森林模型、SVM分类模型、KNN分类模型以及神经网络分类模型。但是专门针对汽车舆情监测的多标签文本分类方法还有很大的提升空间,一般只是通过情感分析的方法,判断段落的正面情感或负面情感等,从而实现的汽车舆情环境监测,而忽略了舆情信息中包含的对汽车各项参数的微观监测。
[0004]鉴于此,本专利技术提出了一种面向汽车舆情的多标签文本分类方法,并使用获取到的主题标签来实现汽车舆情口碑中优劣表现的追踪以及汽车行业未来发展策略的预测。
技术实现思路
[0005]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种面向汽车舆情的多标签文本分类系统,包括数据预处理模块、数据表示模块、多标签分类模块、标签概率评价模块、显示模块。
[0006]所述数据预处理模块用于对汽车舆情信息进行预处理;所述数据表示模块用于对预处理后的汽车舆情信息进行向量化表示;所述多标签分类模块用于使用数据集构建多标签分类模型,包括构建分类模型和使用分类模型输出标签预测结果两部分;所述标签概率评价模块,根据标签预测结果计算标签预测概率,若所述标签预测概率高于阈值,最终结果则采用标签预测结果,否则标签预测结果将不作为最终结果;所述显示模块,用于对多标签结果进行可视化展示。
[0007]进一步的,所述预处理的方法如下:步骤一:数据清洗,用于删除重复或与汽车领域无关的汽车舆情信息;步骤二:句子切分,以篇为单位,对经过数据清洗的汽车舆情信息按照标点符号等标识符切分为句子;步骤三:去停用词,采用词频统计和人工校验的方式,将词频较高且对分类结果无影响的词汇与通用停用词进行组合,构建去停用词表,用于对汽车舆情信息进行去停用词操作。
[0008]步骤四:one
‑
hot向量化表示,根据标签类型数量N(N> 0),将每条汽车舆情句子变
为行向量(1
×
N),所属标签类型置为1,非标签类型置为0。
[0009]进一步的,所述标签分类的方法如下:步骤一:设定ALBERT模型需要使用的参数,包括词表大小、词向量大小、隐藏层大小、最大预训练序列长度、隐藏层数、激活函数;步骤二:将经过预处理的汽车舆情信息作为ALBERT模型的输入,获得第一向量特征;步骤三:利用基于统计方法的文本向量化计算方法,将汽车舆情信息转换得到的特征表示矩阵作为第二向量特征;步骤四:将第一向量特征和第二向量特征分别送入TextCNN模型进行训练;步骤五:将TextCNN模型的输出结果对应设置为第一标签预测结果和第二标签预测结果,并分别保存模型;步骤六:根据第一标签预测结果和第二标签预测结果分别计算标签预测概率,根据阈值α判断是否采用第一标签预测结果和第一标签预测结果,或第一标签预测结果,或第二标签预测结果。若标签预测结果的概率高于阈值α(α>0.75),最终结果则采用预测结果,否则预测结果将不作为最终结果。
[0010]本专利技术的有益效果是:本专利技术实现了对汽车舆情的多标签分类,能够从舆情信息中,对汽车各项参数的进行微观监测,从而实现的汽车舆情环境监测,并改进了现有方法所需模型构建时间较长的问题,能够适应汽车舆情信息的文本特点,模型的编码能力和准确率也有了很大的提升。
附图说明
[0011]图1是本专利技术的一种面向汽车舆情的多标签文本分类方法所示的原理图;图2是本专利技术的面向汽车舆情的多标签文本分类方法所示的流程图。
具体实施方式
[0012]下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0013]请参阅图1、图2,本专利技术实施例包括:一种面向汽车舆情的多标签文本分类系统,包括:数据预处理模块、数据表示模块、多标签分类模块、标签概率评价模块、显示模块。
[0014]所述数据预处理模块用于对汽车舆情信息进行预处理;所述数据表示模块用于对预处理后的汽车舆情信息进行向量化表示;所述多标签分类模块用于使用数据集构建多标签分类模型,包括构建分类模型和使用分类模型输出标签预测结果两部分;所述标签概率评价模块,根据标签预测结果计算标签预测概率,若所述标签预测概率高于阈值,最终结果则采用标签预测结果,否则标签预测结果将不作为最终结果;所述显示模块,用于对多标签结果进行可视化展示。
[0015]其中,所述预处理的方法如下:步骤一:数据清洗,用于删除重复或与汽车领域无关的汽车舆情信息;
步骤二:句子切分,以篇为单位,对经过数据清洗的汽车舆情信息按照标点符号等标识符切分为句子;步骤三:去停用词,采用词频统计和人工校验的方式,将词频较高且对分类结果无影响的词汇与通用停用词进行组合,构建去停用词表,用于对汽车舆情信息进行去停用词操作。
[0016]步骤四:one
‑
hot向量化表示,根据标签类型数量N(N> 0),将每条汽车舆情句子变为行向量(1
×
N),所属标签类型置为1,非标签类型置为0。
[0017]标签类型内容分为产品、品牌、销售服务、售后服务、车联网五大标签。其中,产品标签包括造型、产品质量、舒适性等方面标签;品牌标签包括品牌知名度、品牌形象、品牌社会责任等;销售服务标签包括友好型、试乘试驾、价格和折扣等;售后服务标签包括接送服务、态度与行为、接车和交车等;车联网标签包括注册激活、SPIN管理等标签,共计206个标签类型。
[0018]请参阅图2,在另一个实施例中,一种面向汽车舆情的多标签文本分类方法,基于上述面向汽车舆情的多标签文本分类系统,包括:步骤一:设定ALBERT模型需要使用的参数,包括词表大小、词向量大小、隐藏层大小、最大预训练序列长度、隐藏层数、激活函数;步骤二:将经过预处理的汽车舆情信息作为ALBERT模型的输入,获得第一向量特征;步骤三:利用基于统计方法的文本向量化计算方法,将汽车舆情信息转换得到的特征表示矩阵作为第二向量特征;步骤四:将第一向量特征和第二向量特征分别送入TextCNN模型进行训练;步骤五:将TextCNN模型的输出结果对应设置为第一标签预测结果和第二标签预测结果,并分别保存模型;步骤六:根据第一标签预测结果和第二标签预测结果分别计算标签预测概率,根据阈值α判断是否采用第一标签预测结果和第一标签预测结果,或第一标签预测结果,或第二标签预测结果。本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种面向汽车舆情的多标签文本分类系统,其特征在于,包括数据预处理模块、数据表示模块、多标签分类模块、标签概率评价模块、显示模块,其中:所述数据预处理模块用于对汽车舆情信息进行预处理;所述数据表示模块用于对预处理后的汽车舆情信息进行向量化表示;所述多标签分类模块用于使用数据集构建多标签分类模型,包括构建分类模型和使用分类模型输出标签预测结果两部分;所述标签概率评价模块,根据标签预测结果计算标签预测概率,若所述标签预测概率高于阈值,最终结果则采用标签预测结果,否则标签预测结果将不作为最终结果;所述显示模块,用于对多标签结果进行可视化展示。2.如权利要求1所述的一种面向汽车舆情的多标签文本分类系统,其特征在于,所述预处理的步骤如下:步骤一:数据清洗,用于删除重复或与汽车领域无关的汽车舆情信息;步骤二:句子切分,以篇为单位,对经过数据清洗的汽车舆情信息按照标点符号等标识符切分为句子;步骤三:去停用词,采用词频统计和人工校验的方式,将词频较高且对分类结果无影响的词汇与通用停用词进行组合,构建去停用词表,用于对汽车舆情信息进行去停用词操作;步骤四:one
‑
hot向量化...
【专利技术属性】
技术研发人员:李瑞瑞,于沛,赵伟,
申请(专利权)人:北京富通东方科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。