一种提取汽车口碑词云所需数据的方法及装置制造方法及图纸

技术编号：26172213 阅读：38 留言：0更新日期：2020-10-31 13:48

本发明专利技术涉及大数据技术领域，特别是涉及一种提取汽车口碑词云所需数据的方法，包括：获取汽车口碑评论相关数据；对获取的数据进行数据筛选；所述数据筛选包括选取需要的数据，并对需要的数据使用统一命名规则；对所述需要的数据进行分词，并对评论属性进行类别判定；使用多线程处理，并对每条评论构建关键词图；按维度获取关键词短语，并进行相关处理，对处理后的结果进行展示。只显示我们需要的汽车配置项的相关描述，过滤了其他非相关描述。提取的关键词不仅考虑了词频，在每个类别下的显著性，还考虑关键短语中组合词之间的窗口影响，不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种提取汽车口碑词云所需数据的方法及装置
本专利技术涉及大数据
，特别是涉及一种提取汽车口碑词云所需数据的方法和一种提取汽车口碑词云所需数据的装置。
技术介绍
随着互联网的快速发展，细分领域的网站越来越多，例如汽车、餐饮、住宿等服务的网站。很多用户在细分领域中，伴随着自己的实际经验，会针对自己的服务发表自己的观点。用户的反馈对产品或服务的后续改进。在汽车生活中，人们对于买车、用车过程中遇到的问题，往往也会在微博、论坛、贴吧等公共场合发表自己的意见，所以对于汽车企业来说，通过汽车舆论监测，时刻关注用户对产品的评价及反馈，不但可以对可能出现的焦点事件进行提前干预及时处理，而且也可以搜集许多产品的优化改进建议。在汽车舆论系统中，可以通过对汽车行业相关网站或者论坛上目标用户发表的言论进行实时分析，获取用户针对产品所表达出的正负面情感倾向，从而达到对相关产品的舆论监测。传统获取词云所需数据的方法主要是通过分词，然后计算词频，将词频大的词抽取出进行展示。或是通过信息增益，计算每个特征词的信息增益，并排序，提取排在前...

【技术保护点】
1.一种提取汽车口碑词云所需数据的方法，其特征在于，包括：获取汽车口碑评论相关数据；/n对获取的数据进行数据筛选；所述数据筛选包括选取需要的数据，并对需要的数据使用统一命名规则；/n对所述需要的数据进行分词，并对评论属性进行类别判定，生成评论属性类别数据；/n使用多线程处理，并对每条评论构建关键词图；/n按维度获取关键词短语，并进行相关处理，对处理后的结果进行展示，具体步骤包括：按维度合并关键词图，对筛选后的关键词进行扩展，获取关键短语；所述维度是指按车型、时间或平台进行汇总；/n计算每个所述维度下合并后的关键词权重；/n按权重提取每个所述维度下的关键词；/n提取每个维度下的关键词扩展为关键短...

【技术特征摘要】
1.一种提取汽车口碑词云所需数据的方法，其特征在于，包括：获取汽车口碑评论相关数据；
对获取的数据进行数据筛选；所述数据筛选包括选取需要的数据，并对需要的数据使用统一命名规则；
对所述需要的数据进行分词，并对评论属性进行类别判定，生成评论属性类别数据；
使用多线程处理，并对每条评论构建关键词图；
按维度获取关键词短语，并进行相关处理，对处理后的结果进行展示，具体步骤包括：按维度合并关键词图，对筛选后的关键词进行扩展，获取关键短语；所述维度是指按车型、时间或平台进行汇总；
计算每个所述维度下合并后的关键词权重；
按权重提取每个所述维度下的关键词；
提取每个维度下的关键词扩展为关键短语，并将所述评论属性类别、关键词权重、情感极性以及子车型、时间维度和其他展示维度数据一同传入，供词云展示。

2.根据权利要求1所述的方法，其特征在于，所述获取汽车口碑评论相关数据，包括：从各大汽车评论网站的口碑平台获取口碑评论数据，并针对每个维度计算关键短语；
所述评论数据包括：口碑评论类别、口碑评论内容、口碑评论属性、汽车车型以及属性观点；
所述汽车车型包括：子车型。

3.根据权利要求2所述的方法，其特征在于，所述对获取的数据进行筛选，并选取需要的数据，并对选取的数据使用统一命名规则，包括：数据清洗、数据整合以及词典整理；
所述数据清洗包括格式化处理，具体为：统一数据格式，包括转为小写字符、去空格、去回车以及去TAB操作；
所述数据整合包括统一命名各平台网站中语料内容的定义，并整理为一类数据；所述数据整合还包括仅抽取需要分析的汽车类别信息，并按类别拆分后进行保存，且每个评论拥有唯一ID号；
所述词典整理包括提取词云所需的词典，具体包括：汽车属性、否定词、情感词；所述汽车属性包括汽车配置项；所述情感词包括汽车配置项持有的态度以及正、负极性。

4.根据权利要求3所述的方法，其特征在于，所述对所述需要的数据进行分词，并对评论属性进行类别判定，生成评论属性类别数据，包括：定义所有评论下汽车属性的类别归属，并对每个汽车属性最终判定唯一一个类别，具体步骤为：
结巴分词，具体为：根据所述词典对清洗过后的所有评论进行分词并去停用词；
使用TFIDF算法进行类别判定，具体为：根据TFIDF算法的计算公式，计算每个汽车属性在每个类别下的TFIDF数值，并以此为依据判定每个属性的唯一归属类别。

5.根据权利要求4所述的方法，其特征在于，所述使用多线程处理，并对每条评论构建关键词图，包括：使用TextRank算法中获取关键短语的技术，将关键词扩展成关键短语的步骤，具体为：
异步多线程处理，包括：将所有评论平均分配到多个线程，每个线程并行构建关键词图，并针对处理好的关键词图数据并行写入数据库；
所述构建关键词图，包括：使用TextRank算法对每条评论构建无向候选关键词图G＝(V,E)，其中V为节点集，E为无向图边的权值；
所述节点集是由整理好的口碑评论属性以及属性观点组成，其中所述属性观点为，否定词与情感词在指定窗口K1内共现时确定的属性观点；
所述无向图边的权值为，采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K2的窗口中共现，其中K1、K2表示窗口大小，即最多共现K1或K2个单词。

6.根据权利要求5所述的方法，其特征在于，所述计算每个维度下的关键...

【专利技术属性】
技术研发人员：陈晶，李奏换，卢春霞，黎秋怡，刘丹，梁维新，
申请(专利权)人：广州威尔森信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人