The invention requests to protect a topic extraction method of automobile comment based on classifier chain, including: 101 automobile comment text data preprocessing, preprocessing operation of automobile forum user history comment data; 102 comment text vectorization, using weighted TF IDF method to vectorize each text after data preprocessing to extract text features;103 comment topic clustering; In this paper, we use K means algorithm to cluster text topics and get a classification of existing topic categories; 104 local multi-label classifier chain topic extraction algorithm design: transform a complete classifier chain into multiple local classifier chains, at the same time, each local classifier chain uses the principle of distance from the center of the cluster from far to near to construct a chain, and finally, multiple local classifier chains are integrated. The final prediction results are obtained. The invention is based on user history review data of automobile forum, extracts text features, designs improved local classifier algorithm, establishes prediction model, and predicts which topics each comment belongs to.
【技术实现步骤摘要】
一种基于分类器链的汽车评论主题提取方法
本专利技术属于机器学习、文本分类、多标签分类等领域,尤其涉及到文本分类中文本预处理、文本向量化,多标签分类中标签空间划分、多标签分类器链算法等技术。
技术介绍
随着信息技术的进步,每天都有海量的数据产生,数据量与资源呈现海量增长的特征。如何有效的管理并利用这些数据成为了一个备受关注的领域。在数据量不断增大的同时,数据的标记结构复杂度也逐步增加,从传统的二分类问题到多分类问题,再到多标签问题。在多标签问题中一个样本关联的标签可能有多个,随着分类任务的复杂性增加,多标签数据分析的重要性也逐渐凸显,多标签分类算法在文本分类、分子结构识别、图像与视频的语言标注等领域的应用越来越广泛。多标签分类问题已经成为了当前研究的一个热点。现有的多标签分类算法可根据解决问题的角度分为问题转换法(ProblemTransfusion)和算法适应法(AlgorithmAdaptation)[17]。问题转化的方法是转化问题数据,使之适用现有算法;算法适应的方法是指针对某一特定的算法进行扩展,从而能够直接处理多标记数据。基于这两种思想,目前已经有多种相对成熟的算法被提出如二元关系法(BinaryRelevance,BR),其假设每个标签彼此独立,为每个标签训练一个单独的二分类器。BR算法最大的缺点是完全没有考虑标签之间的关联性,无法挖掘标签关联信息来提高分类精度。分类器链(ClassifierChains,CC)[27],其把原问题分解成有先后顺序的一系列二分类问题,然后前一个分类器的输出作为下一个分类器的输入。其具备结构简单,基分类器选择灵活 ...
【技术保护点】
1.一种基于分类器链的汽车评论主题提取方法,其特征在于,包括以下步骤:101、对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化在内的预处理操作;102、评论文本向量化:使用加权TF‑IDF方法对经过步骤101数据预处理后的每条文本进行向量化从而提取文本特征;103、评论主题聚类划分:经过步骤102得到机器学习算法可理解的多标签数据集后,使用k‑means算法对文本主题聚类划分,得到现有主题类别的一个划分;104、设计局部多标签分类器链主题提取算法,具体包括:将一条完整的分类器链转化为多条局部分类器链,同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链,最后多条局部分类器链集成得到最终预测结果。
【技术特征摘要】
1.一种基于分类器链的汽车评论主题提取方法,其特征在于,包括以下步骤:101、对汽车论坛用户历史评论数据进行去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化在内的预处理操作;102、评论文本向量化:使用加权TF-IDF方法对经过步骤101数据预处理后的每条文本进行向量化从而提取文本特征;103、评论主题聚类划分:经过步骤102得到机器学习算法可理解的多标签数据集后,使用k-means算法对文本主题聚类划分,得到现有主题类别的一个划分;104、设计局部多标签分类器链主题提取算法,具体包括:将一条完整的分类器链转化为多条局部分类器链,同时每条局部分类器链采用距离类簇中心点由远到近的原则构建链,最后多条局部分类器链集成得到最终预测结果。2.根据权利要求1所述的一种基于分类器链的汽车评论主题提取方法,其特征在于,所述步骤101对汽车论坛用户历史评论数据去除评论文本中的异常字符、基于滑动窗口的切词和多标签分类数据集格式转化等预处理操作,具体包括:S1011、通过汽车论坛获取用户历史评论文本原始数据,原始数据包括用户基本信息数据、评论文本、评论所属主题;S1012、去除评论文本中的异常字符,原始评论文本中包含表情、终结字符集、前端标签在内的异常字符;在评论数据预处理阶段,利用中文、英文、标点符号字符的Unicode编码对原始评论文本过滤,只保留中文,英文,数字,中英文标点符号这四种字符;S1013、评论文本切词,采用基于滑动窗口的切词方案,分别按照不同长度的窗口在原句上滑动,提取不同长度的切词;基于滑动窗口的切词方案提取出汽车评论文本中的汽车相关专业词汇,处理结束后的文本转化为一个词语的列表;S1014、对原始数据按照content_id,subject为关键字构建多标签分类数据集,爬取数据中每行评论的subject为10个主题中的一个或几个,将原始数据转化为多标签数据集,及每条评论文本的主题标签为一个标签集合。3.根据权利要求2所述的一种基于分类器链的汽车评论主题提取方法,其特征在于,所述用户基本数据包括user_id、age、sex、user_lv_cd字段;评论文本包括content_id评论编号、content评论文本;subject评论所属主题,每条评论的subject必须为训练集中给出的10类之中,即:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个或几个。4.根据权利要求2所述的一种基于分类器链的汽车评论主题提取方法,其特征在于,所述步骤102评论文本向量化,具体包括步骤:S1021、针对S1013切词后的评论文本,采用加权TF-IDF统计方法将词语列表转化为向量,首先过滤在整个文档中出现次数小于10次的...
【专利技术属性】
技术研发人员:王进,杨阳,李林洁,杨俏,孙开伟,邓欣,陈乔松,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。