一种基于分类器链的汽车评论主题提取方法技术

技术编号:21184662 阅读:27 留言:0更新日期:2019-05-22 15:16
本发明专利技术请求保护一种基于分类器链的汽车评论主题提取方法,包括:101汽车评论文本数据预处理,对汽车论坛用户历史评论数据进行预处理操作;102评论文本向量化,使用加权TF‑IDF方法对数据预处理后的每条文本进行向量化从而提取文本特征;103评论主题聚类划分,使用k‑means算法对文本主题聚类划分,得到现有主题类别的一个划分;104局部多标签分类器链主题提取算法设计:将一条完整的分类器链转化为多条局部分类器链,同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链,最后多条局部分类器链集成得到最终预测结果。本发明专利技术基于汽车论坛的用户历史评论数据,提取文本特征,设计改进的局部分类器算法,建立预测模型,从而预测每条评论属于哪些主题。

A Subject Extraction Method for Automobile Comments Based on Classifier Chain

The invention requests to protect a topic extraction method of automobile comment based on classifier chain, including: 101 automobile comment text data preprocessing, preprocessing operation of automobile forum user history comment data; 102 comment text vectorization, using weighted TF IDF method to vectorize each text after data preprocessing to extract text features;103 comment topic clustering; In this paper, we use K means algorithm to cluster text topics and get a classification of existing topic categories; 104 local multi-label classifier chain topic extraction algorithm design: transform a complete classifier chain into multiple local classifier chains, at the same time, each local classifier chain uses the principle of distance from the center of the cluster from far to near to construct a chain, and finally, multiple local classifier chains are integrated. The final prediction results are obtained. The invention is based on user history review data of automobile forum, extracts text features, designs improved local classifier algorithm, establishes prediction model, and predicts which topics each comment belongs to.

【技术实现步骤摘要】
一种基于分类器链的汽车评论主题提取方法
本专利技术属于机器学习、文本分类、多标签分类等领域,尤其涉及到文本分类中文本预处理、文本向量化,多标签分类中标签空间划分、多标签分类器链算法等技术。
技术介绍
随着信息技术的进步,每天都有海量的数据产生,数据量与资源呈现海量增长的特征。如何有效的管理并利用这些数据成为了一个备受关注的领域。在数据量不断增大的同时,数据的标记结构复杂度也逐步增加,从传统的二分类问题到多分类问题,再到多标签问题。在多标签问题中一个样本关联的标签可能有多个,随着分类任务的复杂性增加,多标签数据分析的重要性也逐渐凸显,多标签分类算法在文本分类、分子结构识别、图像与视频的语言标注等领域的应用越来越广泛。多标签分类问题已经成为了当前研究的一个热点。现有的多标签分类算法可根据解决问题的角度分为问题转换法(ProblemTransfusion)和算法适应法(AlgorithmAdaptation)[17]。问题转化的方法是转化问题数据,使之适用现有算法;算法适应的方法是指针对某一特定的算法进行扩展,从而能够直接处理多标记数据。基于这两种思想,目前已经有多种相对成熟的算法被提出如二元关系法(BinaryRelevance,BR),其假设每个标签彼此独立,为每个标签训练一个单独的二分类器。BR算法最大的缺点是完全没有考虑标签之间的关联性,无法挖掘标签关联信息来提高分类精度。分类器链(ClassifierChains,CC)[27],其把原问题分解成有先后顺序的一系列二分类问题,然后前一个分类器的输出作为下一个分类器的输入。其具备结构简单,基分类器选择灵活,有效利用标签关联性等优点。不同语言模型的区别,也就是对文本提取特征的不同。常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Termfrequency(TF),Inversedocumentfrequency(IDF),以及合并起来的TF-IDF。这种语言模型主要是用词汇的统计特征来作为特征集,每个特征都能够说得出物理意义,看起来会比bag-of-words效果好,但实际效果也差不多;3.NGram:一种考虑了词汇顺序的模型,就是N阶Markov链,每个样本转移成了转移概率矩阵。传统多标签链文本分类方法效果受初始标签链序影响较大,且对于标签关联性的挖掘局限在随机生成的标签序列上,分类效果不稳定。本文提出了一种基于分类器链的汽车评论主题提取方法。首先提出了一种基于余弦相似度的标签相关性聚类方法,使用改进后的余弦相似度公式度量标签向量间距离,同时考虑了标签向量间的正负关联性,通过较少的计算将彼此相关性较强的标签向量划分到同一个类簇中。在此基础上利用挖掘得到的标签关联性类簇,将一条完整的分类器链转化为多条局部分类器链。本文提出的方法克服了传统算法的缺点,且时间复杂度没有显著增长。相较于现有改进算法,基于分类器链的汽车评论主题提取方法分类效果也具有优势,且效率上优势明显。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种基于分类器链的汽车评论主题提取方法。本专利技术的技术方案如下:一种基于分类器链的汽车评论主题提取方法,其包括以下步骤:101、对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化等预处理操作;102、评论文本向量化:使用加权TF-IDF方法对经过步骤101数据预处理后的每条文本进行向量化从而提取文本特征;103、评论主题聚类划分:经过步骤102得到机器学习算法可理解的多标签数据集后,使用k-means算法对文本主题聚类划分,得到现有主题类别的一个划分;104、设计局部多标签分类器链主题提取算法,具体包括:将一条完整的分类器链转化为多条局部分类器链,同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链,最后多条局部分类器链集成得到最终预测结果。进一步的,所述步骤101对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化等预处理操作,具体包括:S1011、通过汽车论坛获取用户历史评论文本原始数据,原始数据包括用户基本信息数据、评论文本、评论所属主题;S1012、去除评论文本中的异常字符,原始评论文本中包含表情、终结字符集、前端标签在内的异常字符;在评论数据预处理阶段,利用中文、英文、标点符号字符的Unicode编码对原始评论文本过滤,只保留中文,英文,数字,中英文标点符号这四种字符;S1013、评论文本切词,采用基于滑动窗口的切词方案,分别按照不同长度的窗口在原句上滑动,提取不同长度的切词;基于滑动窗口的切词方案提取出汽车评论文本中的汽车相关专业词汇,处理结束后的文本转化为一个词语的列表;S1014、对原始数据按照content_id,subject为关键字构建多标签分类数据集,爬取数据中每行评论的subject为10个主题中的一个或几个,将原始数据转化为多标签数据集,及每条评论文本的主题标签为一个标签集合。进一步的,所述用户基本数据包括user_id、age、sex、user_lv_cd字段;评论文本包括content_id评论编号、content评论文本;subject评论所属主题,每条评论的subject必须为训练集中给出的10类之中,即:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个或几个。进一步的,所述步骤102评论文本向量化,具体包括步骤:S1021、针对S1013切词后的评论文本,采用加权TF-IDF统计方法将词语列表转化为向量,首先过滤在整个文档中出现次数小于10次的词语;其次利用googleword2vec得到每个词语的50维向量并计算该向量与每个主题词汇50维向量的欧式距离;随后对每个词语与相关主题的欧式距离乘以其TF-IDF值得到和主题数目一致的向量;最后将一条评论中的每个词语的10维向量拼接得到该评论的向量。进一步的,所述步骤103评论主题聚类划分,具体包括步骤:S1031、提出一种通过聚类划分评论主题的算法:算法主要思想为将S1014得到的多标签数据集中的标签作为样本,然后在标签空间执行聚类操作,使用k-means算法对文本主题聚类划分,得到现有主题类别的一个划分,原始的10个主题通过聚类划分为[“动力”,“配置”,“油耗”]、[“安全性”,“操控”,“空间”]、[“价格”,“舒适性”],[“外观”,“内饰”]四个类别。进一步的,所述步骤104设计局部多标签分类器链主题提取算法,具体包括:S1041、通过S1031聚类划分评论主题的算法,具有相关关系的主题向量被划分到了同一个类簇中,即原始的10个主题划分为[“动力”,“配置”,“油耗”]、[“安全性”,“操控”,“空间”]、[“价格”,“舒适性”],[“外观”,“内饰”]四个类别,在多标签分类器链算法中标签集合Y的条件概率乘法规则约束下,即位于位置k的标签只和前k-1个标签相关联,提出一种基于自定义相关性的标签本文档来自技高网
...

【技术保护点】
1.一种基于分类器链的汽车评论主题提取方法,其特征在于,包括以下步骤:101、对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化在内的预处理操作;102、评论文本向量化:使用加权TF‑IDF方法对经过步骤101数据预处理后的每条文本进行向量化从而提取文本特征;103、评论主题聚类划分:经过步骤102得到机器学习算法可理解的多标签数据集后,使用k‑means算法对文本主题聚类划分,得到现有主题类别的一个划分;104、设计局部多标签分类器链主题提取算法,具体包括:将一条完整的分类器链转化为多条局部分类器链,同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链,最后多条局部分类器链集成得到最终预测结果。

【技术特征摘要】
1.一种基于分类器链的汽车评论主题提取方法,其特征在于,包括以下步骤:101、对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化在内的预处理操作;102、评论文本向量化:使用加权TF-IDF方法对经过步骤101数据预处理后的每条文本进行向量化从而提取文本特征;103、评论主题聚类划分:经过步骤102得到机器学习算法可理解的多标签数据集后,使用k-means算法对文本主题聚类划分,得到现有主题类别的一个划分;104、设计局部多标签分类器链主题提取算法,具体包括:将一条完整的分类器链转化为多条局部分类器链,同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链,最后多条局部分类器链集成得到最终预测结果。2.根据权利要求1所述的一种基于分类器链的汽车评论主题提取方法,其特征在于,所述步骤101对汽车论坛用户历史评论数据去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化等预处理操作,具体包括:S1011、通过汽车论坛获取用户历史评论文本原始数据,原始数据包括用户基本信息数据、评论文本、评论所属主题;S1012、去除评论文本中的异常字符,原始评论文本中包含表情、终结字符集、前端标签在内的异常字符;在评论数据预处理阶段,利用中文、英文、标点符号字符的Unicode编码对原始评论文本过滤,只保留中文,英文,数字,中英文标点符号这四种字符;S1013、评论文本切词,采用基于滑动窗口的切词方案,分别按照不同长度的窗口在原句上滑动,提取不同长度的切词;基于滑动窗口的切词方案提取出汽车评论文本中的汽车相关专业词汇,处理结束后的文本转化为一个词语的列表;S1014、对原始数据按照content_id,subject为关键字构建多标签分类数据集,爬取数据中每行评论的subject为10个主题中的一个或几个,将原始数据转化为多标签数据集,及每条评论文本的主题标签为一个标签集合。3.根据权利要求2所述的一种基于分类器链的汽车评论主题提取方法,其特征在于,所述用户基本数据包括user_id、age、sex、user_lv_cd字段;评论文本包括content_id评论编号、content评论文本;subject评论所属主题,每条评论的subject必须为训练集中给出的10类之中,即:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个或几个。4.根据权利要求2所述的一种基于分类器链的汽车评论主题提取方法,其特征在于,所述步骤102评论文本向量化,具体包括步骤:S1021、针对S1013切词后的评论文本,采用加权TF-IDF统计方法将词语列表转化为向量,首先过滤在整个文档中出现次数小于10次的...

【专利技术属性】
技术研发人员:王进杨阳李林洁杨俏孙开伟邓欣陈乔松
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1