一种评论数据分类方法及系统技术方案

技术编号:22594712 阅读:48 留言:0更新日期:2019-11-20 11:05
本发明专利技术实施例涉及一种评论数据分类方法及装置,其中,所述方法包括:获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;确定所述数据训练集中各个词汇的词向量,并构建词向量的N‑gram特征,并对所述词向量和所述N‑gram特征进行叠加平均;采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。本申请提供的技术方案,能够降低数据分类时间。

A classification method and system of comment data

The embodiment of the invention relates to a comment data classification method and device, wherein the method comprises: obtaining a comment data sample, preprocessing the comment data sample, training the preprocessed result through a prediction model to obtain a data training set, determining the word vectors of each vocabulary in the data training set, and constructing n \u2011 gram characteristics of the word vectors In addition, the word vector and the n \u2011 gram feature are superposed and averaged, and the data after superposed and averaged are classified by hierarchical softmax to determine the classification result corresponding to the data training set. The technical scheme provided by the application can reduce the data classification time.

【技术实现步骤摘要】
一种评论数据分类方法及系统
本申请涉及数据处理
,特别涉及一种评论数据分类方法及系统。
技术介绍
酒店行业作为服务业的重要组成部分,用户评论的倾向也会对它的营收产生重要的影响。而社交媒体的流行,对酒店行业的诸多方面也起着越来越重要的作用。能够正确而快速地将酒店评论数据进行拆分,挑选出其中涉及的维度、情感倾向,让酒店获悉并管理和改善差评所涉及的内容,对于推动酒店盈利有着很大的促进作用。目前用于文本分类的算法很多,基于字典的关键词匹配算法耗时耗力,后期维护成本巨大,由于极其依赖字典词库,导致其无法对新文本分类,且存在着类目歧义问题。基于特征的的传统机器学习算法,如支持向量机、朴素贝叶斯等过于依赖人工设计的特征,设计的特征对文本长度有所依赖,而酒店评论文本长度不一,验证特征的过程费时费力。基于深度学习如LSTM(LongShort-TermMemory,长短期记忆网络)等算法,准确率较高,但需要额外训练词向量,同时网络的构建及训练、调参过程也复杂耗时,更需要昂贵的GPU(GraphicsProcessingUnit,图形处理器)设备进行本文档来自技高网...

【技术保护点】
1.一种评论数据分类方法,其特征在于,所述方法包括:/n获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;/n确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均;/n采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。/n

【技术特征摘要】
1.一种评论数据分类方法,其特征在于,所述方法包括:
获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;
确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均;
采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。


2.根据权利要求1所述的方法,其特征在于,对所述评论数据样本进行预处理包括:
去除所述评论数据样本中的非文本部分,并对剩余的文本进行分词和去除停用词处理;
从去除停用词后的结果中提取关键词,并将提取的所述关键词作为预处理后的结果。


3.根据权利要求1或2所述的方法,其特征在于,通过预设分类器对预处理后的结果进行训练包括:
将所述预处理后的结果划分为多个指定类型,所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本;
利用初始化的预测模型预测所述未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中;
利用当前的带标注样本对所述初始化的预测模型进行校正,得到更新后的预测模型;
利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证,并根据验证结果判断训练过程是否结束。


4.根据权利要求3所述的方法,其特征在于,根据验证结果判断训练过程是否结束包括:
若验证结果与所述用于验证预测模型的带标注样本的标注结果一致,判定训练过程结束;
若验证结果与所述用于验证预测模型的带标注样本的标注结果不一致,利用当前的预测模型预测未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中,以及利用当前的带标注样本对当前的预测模型进行校正,得到再次更新后的预测模型。


5.根据权利要求1所述的方法,其特征在于,所述层次softmax中根据标签和频率构建哈夫曼树,所述哈夫曼树中的叶子节点表征标签,非叶子节点表征频率。


6.根据权利要求5所述的方法,其特征在于,采用层次softmax进行分类的分类概率值按照以下公式确定:



其中,Lj表示第j种分类结果,P(Lj)表示第j种分类结果的分类概率值,Q(Lj)表示...

【专利技术属性】
技术研发人员:许诚强
申请(专利权)人:北京美住美宿科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1