一种提取汽车口碑词云所需数据的方法及装置制造方法及图纸

技术编号:26172213 阅读:26 留言:0更新日期:2020-10-31 13:48
本发明专利技术涉及大数据技术领域,特别是涉及一种提取汽车口碑词云所需数据的方法,包括:获取汽车口碑评论相关数据;对获取的数据进行数据筛选;所述数据筛选包括选取需要的数据,并对需要的数据使用统一命名规则;对所述需要的数据进行分词,并对评论属性进行类别判定;使用多线程处理,并对每条评论构建关键词图;按维度获取关键词短语,并进行相关处理,对处理后的结果进行展示。只显示我们需要的汽车配置项的相关描述,过滤了其他非相关描述。提取的关键词不仅考虑了词频,在每个类别下的显著性,还考虑关键短语中组合词之间的窗口影响,不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。

【技术实现步骤摘要】
一种提取汽车口碑词云所需数据的方法及装置
本专利技术涉及大数据
,特别是涉及一种提取汽车口碑词云所需数据的方法和一种提取汽车口碑词云所需数据的装置。
技术介绍
随着互联网的快速发展,细分领域的网站越来越多,例如汽车、餐饮、住宿等服务的网站。很多用户在细分领域中,伴随着自己的实际经验,会针对自己的服务发表自己的观点。用户的反馈对产品或服务的后续改进。在汽车生活中,人们对于买车、用车过程中遇到的问题,往往也会在微博、论坛、贴吧等公共场合发表自己的意见,所以对于汽车企业来说,通过汽车舆论监测,时刻关注用户对产品的评价及反馈,不但可以对可能出现的焦点事件进行提前干预及时处理,而且也可以搜集许多产品的优化改进建议。在汽车舆论系统中,可以通过对汽车行业相关网站或者论坛上目标用户发表的言论进行实时分析,获取用户针对产品所表达出的正负面情感倾向,从而达到对相关产品的舆论监测。传统获取词云所需数据的方法主要是通过分词,然后计算词频,将词频大的词抽取出进行展示。或是通过信息增益,计算每个特征词的信息增益,并排序,提取排在前面的特征词。或是通过计算TFIDF,算出每个词在不同类别下的特征,将每个类别下特征显著的词提取出来进行展示。现有技术存在的缺点:(1)简单通过词频计算,虽然会将我们需要的一些高频词抽取出来,但也可能会将一些不具有代表性的高频词也抽取出来,忽视了每个类别下的个性。(2)TFIDF虽然解决了每个类别下代表性的问题,但是很多时候计算出来的是单个词,不带任何观点,或对象与观点分开显示,导致词云展示时的信息量价值低。比如,有一段汽车口碑介绍“这辆车的起步我觉得有点肉/稳”,我们希望在词云中显示出“起步肉”或是“起步稳”这类关键短语,而不仅仅只是“起步”。(3)信息增益通常只考虑特征对整个系统的影响,不考虑到某个具体的类比上,即只能对所有类别都包含的相同特征进行特征选择,无法对某些类别独有的特征进行特征识别。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种提取汽车口碑词云所需数据的方法和一种提取汽车口碑词云所需数据的装置。为了解决上述问题,本专利技术实施例公开了一种提取汽车口碑词云所需数据的方法,包括:获取汽车口碑评论相关数据;对获取的数据进行数据筛选;所述数据筛选包括选取需要的数据,并对需要的数据使用统一命名规则;对所述需要的数据进行分词,并对评论属性进行类别判定,生成评论属性类别数据;使用多线程处理,并对每条评论构建关键词图;按维度获取关键词短语,并进行相关处理,对处理后的结果进行展示,具体步骤包括:按维度合并关键词图,对筛选后的关键词进行扩展,获取关键短语;所述维度是指按车型、时间或平台进行汇总;计算每个维度下合并后的关键词权重;按权重提取每个维度下的关键词;提取每个维度下的关键词扩展为关键短语,并将所述评论属性类别、关键词权重、情感极性以及子车型、时间维度和其他展示维度数据一同传入,供词云展示。优选地,获取汽车口碑评论相关数据,包括:从各大汽车评论网站的口碑平台获取口碑评论数据,并针对每个维度计算关键短语;所述评论数据包括:口碑评论类别、口碑评论内容、口碑评论属性、汽车车型以及属性观点;所述汽车车型包括:子车型。优选地,所述对获取的数据进行筛选,并选取需要的数据,并对选取的数据使用统一命名规则,包括:数据清洗、数据整合以及词典整理;所述数据清洗包括格式化处理,具体为:统一数据格式,包括转为小写字符、去空格、去回车以及去TAB操作;所述数据整合包括统一命名各平台网站中语料内容的定义,并整理为一类数据;所述数据整合还包括仅抽取需要分析的汽车类别信息,并按类别拆分后进行保存,且每个评论拥有唯一ID号;所述词典整理包括提取词云所需的词典,具体包括:汽车属性、否定词、情感词;所述汽车属性包括汽车配置项;所述情感词包括汽车配置项持有的态度以及正、负极性。优选地,所述对所述需要的数据进行分词,并对评论属性进行类别判定,生成评论属性类别数据,包括:定义所有评论下汽车属性的类别归属,并对每个汽车属性最终判定唯一一个类别,具体步骤为:结巴分词,具体为:根据所述词典对清洗过后的所有评论进行分词并去停用词;使用TFIDF算法进行类别判定,具体为:根据TFIDF算法的计算公式,计算每个汽车属性在每个类别下的TFIDF数值,并以此为依据判定每个属性的唯一归属类别。优选地,所述使用多线程处理,并对每条评论构建关键词图,包括:使用TextRank算法中获取关键短语的技术,将关键词扩展成关键短语的步骤,具体为:异步多线程处理,包括:将所有评论平均分配到多个线程,每个线程并行构建关键词图,并针对处理好的关键词图数据并行写入数据库;所述构建关键词图,包括:使用TextRank算法对每条评论构建无向候选关键词图G=(V,E),其中V为节点集,E为无向图边的权值;所述节点集是由整理好的口碑评论属性以及属性观点组成,其中所述属性观点为,否定词与情感词在指定窗口K1内共现时确定的属性观点;所述无向图边的权值为,采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K2的窗口中共现,其中K1、K2表示窗口大小,即最多共现K1或K2个单词。优选地,所述计算每个维度下的关键词权重,包括:获取每个口碑评论属性的权重值,迭代传播各节点的权重,直至收敛,计算公式如下:WS(Vi):表示结点Vi的rank值,即口碑评论属性的rank值;In(Vi):表示结点Vi的前驱结点集合,即出现在口碑评论属性前面的属性观点;Out(Vj):表示结点Vj的后继结点集合,即出现在口碑评论属性后面的属性观点;d:为dampingfactor用于做平滑的阻尼系数;Wji:为权重项,即无向图边的权值。优选地,所述提取每个维度下的关键词,包括:通过对口碑评论属性权重进行倒序排序,提取汽车配置项的关键词,且排除了其他不相关的高频词,从而获得最重要的T个口碑评论属性,作为候选关键词。优选地,提取每个维度下的关键词短语,并将所述评论属性类别数据一同传入,供词云展示,包括:根据所述关键词图,对所述T个口碑评论属性分别按比例抽取出现最多的前N个属性观点,并进行组合,生成该维度下的关键短语;所述前N个属性观点抽取规则为评论属性对应的E值降序排列;根据输出的所述评论属性类别,将所述关键词图中的E值作为词云中关键短语的字体大小,一并传给词云显示;所述评论属性类别为关键短语的类别;所述词云显示,包括:将词典中的情感词极性一并传送,使正、负情感分开展示词云。本专利技术实施例公开了一种提取汽车口碑词云所需数据的装置,具体包括:本地服务器、展示系统、本地网络装置、数据库、客户端;所述本地本文档来自技高网
...

【技术保护点】
1.一种提取汽车口碑词云所需数据的方法,其特征在于,包括:获取汽车口碑评论相关数据;/n对获取的数据进行数据筛选;所述数据筛选包括选取需要的数据,并对需要的数据使用统一命名规则;/n对所述需要的数据进行分词,并对评论属性进行类别判定,生成评论属性类别数据;/n使用多线程处理,并对每条评论构建关键词图;/n按维度获取关键词短语,并进行相关处理,对处理后的结果进行展示,具体步骤包括:按维度合并关键词图,对筛选后的关键词进行扩展,获取关键短语;所述维度是指按车型、时间或平台进行汇总;/n计算每个所述维度下合并后的关键词权重;/n按权重提取每个所述维度下的关键词;/n提取每个维度下的关键词扩展为关键短语,并将所述评论属性类别、关键词权重、情感极性以及子车型、时间维度和其他展示维度数据一同传入,供词云展示。/n

【技术特征摘要】
1.一种提取汽车口碑词云所需数据的方法,其特征在于,包括:获取汽车口碑评论相关数据;
对获取的数据进行数据筛选;所述数据筛选包括选取需要的数据,并对需要的数据使用统一命名规则;
对所述需要的数据进行分词,并对评论属性进行类别判定,生成评论属性类别数据;
使用多线程处理,并对每条评论构建关键词图;
按维度获取关键词短语,并进行相关处理,对处理后的结果进行展示,具体步骤包括:按维度合并关键词图,对筛选后的关键词进行扩展,获取关键短语;所述维度是指按车型、时间或平台进行汇总;
计算每个所述维度下合并后的关键词权重;
按权重提取每个所述维度下的关键词;
提取每个维度下的关键词扩展为关键短语,并将所述评论属性类别、关键词权重、情感极性以及子车型、时间维度和其他展示维度数据一同传入,供词云展示。


2.根据权利要求1所述的方法,其特征在于,所述获取汽车口碑评论相关数据,包括:从各大汽车评论网站的口碑平台获取口碑评论数据,并针对每个维度计算关键短语;
所述评论数据包括:口碑评论类别、口碑评论内容、口碑评论属性、汽车车型以及属性观点;
所述汽车车型包括:子车型。


3.根据权利要求2所述的方法,其特征在于,所述对获取的数据进行筛选,并选取需要的数据,并对选取的数据使用统一命名规则,包括:数据清洗、数据整合以及词典整理;
所述数据清洗包括格式化处理,具体为:统一数据格式,包括转为小写字符、去空格、去回车以及去TAB操作;
所述数据整合包括统一命名各平台网站中语料内容的定义,并整理为一类数据;所述数据整合还包括仅抽取需要分析的汽车类别信息,并按类别拆分后进行保存,且每个评论拥有唯一ID号;
所述词典整理包括提取词云所需的词典,具体包括:汽车属性、否定词、情感词;所述汽车属性包括汽车配置项;所述情感词包括汽车配置项持有的态度以及正、负极性。


4.根据权利要求3所述的方法,其特征在于,所述对所述需要的数据进行分词,并对评论属性进行类别判定,生成评论属性类别数据,包括:定义所有评论下汽车属性的类别归属,并对每个汽车属性最终判定唯一一个类别,具体步骤为:
结巴分词,具体为:根据所述词典对清洗过后的所有评论进行分词并去停用词;
使用TFIDF算法进行类别判定,具体为:根据TFIDF算法的计算公式,计算每个汽车属性在每个类别下的TFIDF数值,并以此为依据判定每个属性的唯一归属类别。


5.根据权利要求4所述的方法,其特征在于,所述使用多线程处理,并对每条评论构建关键词图,包括:使用TextRank算法中获取关键短语的技术,将关键词扩展成关键短语的步骤,具体为:
异步多线程处理,包括:将所有评论平均分配到多个线程,每个线程并行构建关键词图,并针对处理好的关键词图数据并行写入数据库;
所述构建关键词图,包括:使用TextRank算法对每条评论构建无向候选关键词图G=(V,E),其中V为节点集,E为无向图边的权值;
所述节点集是由整理好的口碑评论属性以及属性观点组成,其中所述属性观点为,否定词与情感词在指定窗口K1内共现时确定的属性观点;
所述无向图边的权值为,采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K2的窗口中共现,其中K1、K2表示窗口大小,即最多共现K1或K2个单词。


6.根据权利要求5所述的方法,其特征在于,所述计算每个维度下的关键...

【专利技术属性】
技术研发人员:陈晶李奏换卢春霞黎秋怡刘丹梁维新
申请(专利权)人:广州威尔森信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1