一种基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法及电子设备技术

技术编号:38727879 阅读:17 留言:0更新日期:2023-09-08 23:19
本发明专利技术公开了一种基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法及电子设备,包括:获取某品牌卡车销量数据和论坛评论数据;基于自然语言处理,对论坛评论数据进行数据处理得到样本数据;基于样本数据,构建卡车各属性分别对应的情感极性分析,得到情感分析结果;基于情感分析结果,结合车辆销量数据,给出基于用户角度的潜在需求分析,完成新产品规划的用户核心观点积累。本发明专利技术从用户视角出发,以用户评论观点为基础,连接销售数据,对于车辆进行用户情感分析和用户潜在需求分析,更清楚的了解到客户对于车辆各属性的关注程度和用户潜在需求方向,为未来产品规划和设计具有辅助作用,并帮助积累用户评价,完善产品细节。节。节。

【技术实现步骤摘要】
一种基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法及电子设备


[0001]本专利技术属于车辆评价分析
,尤其涉及一种基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法及电子设备。

技术介绍

[0002]目前,随着经济的不断增长,数据信息化、共享化成为未来发展趋势,卡车行业在后续规划发展中客户的需求导向也成为未来卡车设计的关注点之一。现有对于车辆客户评论文本数据分析主要的面向对象是小汽车,由于卡车更多依赖于线下经销商销售,且没有完整的网络在线评价平台,使得文本数据搜集特别困难,也没有相关评论文本数据分析。但是,基于卡车论坛评论的车辆属性评价分析及需求挖掘方法及装置是通过对于论坛数据的提炼和文本数据分析,从用户角度出发得到某一类型卡车用户情感分析和潜在需求分析,得到该类型卡车基于市场反馈的真实评价和对于未来卡车产品规划中用户的需求点,从而给予产品规划提供可靠性建议和方向。

技术实现思路

[0003]本专利技术的目的是为了填补上述现象的空白,提供一种基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法及电子设备,该方法主要基于Python开发数据获取框架和构建文本数据情感分析框架,最终将得到的情感极性分析结果倾向和潜在需求作为产品开发规划的辅助指标,给予产品规划提供可靠性建议和方向。
[0004]本专利技术具体是通过以下技术方案来实现的:
[0005]本专利技术第一方面提供一种基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法,所述方法包括:
[0006]获取某品牌某型号卡车的月销量;
[0007]获取所述品牌卡车论坛里所有评论信息,对每条信息进行预处理,得到初始评论文本集合;
[0008]基于所述初始评论文本集合,根据车辆类型关键字信息进行匹配,即可对每条评论所描述车型进行分类;
[0009]遍历完所述初始评论文本集合,将描述为同一车辆类型的评论信息重新组合,生成新的文本数据集;
[0010]对所述新的文本数据集进行二次处理,将每条文本进行分词,并提取关键词,生成关键词文本集;
[0011]对所述关键词文本集,提取每条文本属性词,并进行词频统计得到属性词集合,遍历所述关键词文本集与所述属性词集合相互匹配,包含属性词相同的文本汇总在同一文本集,形成各属性文本集;
[0012]基于所述各属性文本集,相同属性文本逐条进行情感得分计算,并根据计算结果
得到情感极性分析倾向结果;
[0013]基于所述情感极性分析倾向结果,结合销量数据,挖掘用户对于各属性的满意度和潜在需求。
[0014]作为本专利技术的进一步说明,所述的获取某品牌某型号卡车的月销量,具体来源包括:
[0015]某品牌车辆的开票数据或者上牌数据,主要包含车辆型号、车辆类型、销量个数。
[0016]作为本专利技术的进一步说明,在所述获取所述品牌卡车论坛里所有评论信息,对每条信息进行预处理,得到初始评论文本集合的过程中:
[0017]所述获取所述品牌卡车论坛里所有评论信息包括:卡车品牌、型号、帖子发布时间、帖子标题、内容以及回复内容;
[0018]所述对每条信息进行预处理,是对于所有评论信息进行查重删除、根据自建广告词库进行广告语删除和无意义回复删除。
[0019]作为本专利技术的进一步说明,所述对于所有评论信息进行查重删除、根据自建广告词库进行广告语删除和无意义回复删除,其具体内容包括:
[0020]所述的查重删除是遍历整个文本集,将包含完全重复内容或者重复内容超过90%标记为重复信息,并将重复信息删除;
[0021]所述自建广告词库是根据大量的原始论坛数据通过买、卖、货源、微信、联系关键词进行模糊匹配并获得多个相关关联词,且对所有关联词进行人工校正和筛选后写入广告词库备用,得到自建广告词库;通过广告词库和评论信息进行匹配,删除所有广告贴;
[0022]所述的无意义回复删除是将666、恭喜、同楼主标记为无意义关键词进行删除,且当回复内容长度<=4时默认为无意义回复,则将该条文本数据进行删除。
[0023]作为本专利技术的进一步说明,所述基于所述初始评论文本集合,根据车辆类型关键字信息进行匹配,具体为:将设定好的车辆类型信息表内容与所述初始评论文本集内容进行匹配;
[0024]所述设定好的车辆类型信息表具体包括:设置牵引车、自卸车、载货车、专用车四种车辆类型专用词存储在车辆类别信息表中。
[0025]作为本专利技术的进一步说明,所述对所述新的文本数据集进行二次处理包含去停用词、分词和提取关键词,其中:
[0026]所述去停用词、分词和提取关键词的具体实施内容如下:
[0027]所述的去停用词是通过停用词库将文本数据集进行筛选,去掉文本内所包含的无关紧要的词和符号;
[0028]所述的分词方法是对于去掉停用词的每条评论信息通过Pythonjieba分词库来分词,并同时标注出每个分词的词性;
[0029]所述的提取关键词是通过对于大量原始评论文本的统计分析和基于自然语言特点,将每条文本中的名词、动词、动名词、形容词、副词提取,并将包含名词+动词,名词+形容词,名词+动词+形容词,名词+动词+副词,名词+形容词+副词,名词+动词+形容词+副词这6种主要形式的句子保留,形成核心观点,生成关键词文本集。
[0030]作为本专利技术的进一步说明,在所述对所述关键词文本集,提取每条文本属性词,并进行词频统计得到属性词集合,遍历所述关键词文本集与所述属性词集合相互匹配,包含
属性词相同的文本汇总在同一文本集,形成各属性文本集的过程中:
[0031]所述的属性词是将所述关键词文本集内的每条评论中包含名词和动名词词性的词语提取出来,并进行词频统计排序,形成所述属性词集合;
[0032]所述的各属性文本集是对于上述中所生成的关键词文本集通过属性词集合进行逐条遍历,将包含同一属性词的文本提取汇总,形成各属性文本集。
[0033]作为本专利技术的进一步说明,在所述基于所述各属性文本集,相同属性文本逐条进行情感得分计算,并根据计算结果得到情感极性分析倾向结果的过程中:
[0034]所述的情感得分计算是通过调用百度api接口中的汽车情感词部分,对于各属性文本集中的每条评论通过调用百度api接口进行情感得分计算,输出情感得分结果0或者1或者2,其中0为负向情感,1为中性情感,2为正向情感;
[0035]所述的情感极性分析倾向结果是通过如下方式得到:
[0036]满意度=正向情感总得分/该属性下文本个数;中立度=中性情感总得分/该属性下文本个数;
[0037]所述的正向情感总得分是该属性下情感得分为2的所有评论的得分总和;
[0038]所述的该属性下文本个数是该属性下所有的评论总个数;
[0039]计算每个属性最终的情感极性分析倾向结果,其中满意度数值越大,表明正向情感越多,中立度越接近于1表明中性情感居多。
[0040]作为本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法,其特征在于,所述方法包括:获取某品牌某型号卡车的月销量;获取所述品牌卡车论坛里所有评论信息,对每条信息进行预处理,得到初始评论文本集合;基于所述初始评论文本集合,根据车辆类型关键字信息进行匹配,即可对每条评论所描述车型进行分类;遍历完所述初始评论文本集合,将描述为同一车辆类型的评论信息重新组合,生成新的文本数据集;对所述新的文本数据集进行二次处理,将每条文本进行分词,并提取关键词,生成关键词文本集;对所述关键词文本集,提取每条文本属性词,并进行词频统计得到属性词集合,遍历所述关键词文本集与所述属性词集合相互匹配,包含属性词相同的文本汇总在同一文本集,形成各属性文本集;基于所述各属性文本集,相同属性文本逐条进行情感得分计算,并根据计算结果得到情感极性分析倾向结果;基于所述情感极性分析倾向结果,结合销量数据,挖掘用户对于各属性的满意度和潜在需求。2.根据权利要求1所述的基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法,其特征在于,所述的获取某品牌某型号卡车的月销量,具体来源包括:某品牌车辆的开票数据或者上牌数据,主要包含车辆型号、车辆类型、销量个数。3.根据权利要求1所述的基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法,其特征在于,在所述获取所述品牌卡车论坛里所有评论信息,对每条信息进行预处理,得到初始评论文本集合的过程中:所述获取所述品牌卡车论坛里所有评论信息包括:卡车品牌、型号、帖子发布时间、帖子标题、内容以及回复内容;所述对每条信息进行预处理,是对于所有评论信息进行查重删除、根据自建广告词库进行广告语删除和无意义回复删除。4.根据权利要求3所述的基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法,其特征在于,所述对于所有评论信息进行查重删除、根据自建广告词库进行广告语删除和无意义回复删除,其具体内容包括:所述的查重删除是遍历整个文本集,将包含完全重复内容或者重复内容超过90%标记为重复信息,并将重复信息删除;所述自建广告词库是根据大量的原始论坛数据通过买、卖、货源、微信、联系关键词进行模糊匹配并获得多个相关关联词,且对所有关联词进行人工校正和筛选后写入广告词库备用,得到自建广告词库;通过广告词库和评论信息进行匹配,删除所有广告贴;所述的无意义回复删除是将666、恭喜、同楼主标记为无意义关键词进行删除,且当回复内容长度<=4时默认为无意义回复,则将该条文本数据进行删除。5.根据权利要求1所述的基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法,
其特征在于,所述基于所述初始评论文本集合,根据车辆类型关键字信息进行匹配,具体为:将设定好的车辆类型信息表内容与所述初始评论文本集内容进行匹配;所述设定好的车辆类型信息表具体包括:设置牵引车、自卸车、载货车、专用车四种车辆类型专用词存储在车辆类别信息表中。6.根据权利要求1所述的基于卡车论坛评论的车辆属性评价分析及需求挖掘的方法,其特征在于,所述对所述新的文本数据集进行二次处理包含去停用词、分词和提取关键词,其中:所述去停用词、分词和提取关键词的具体实施内容如下:所述的去停用词是通过停用词库将文本数据集进行筛选,去掉文本内所包含的无关紧要的词和符号;所述的分词方法是对于去掉...

【专利技术属性】
技术研发人员:赵洁琼王瑞雷正潮袁凯
申请(专利权)人:陕西汽车集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1