一种短英文影评分类方法及装置制造方法及图纸

技术编号：22330178 阅读：35 留言：0更新日期：2019-10-19 12:17

本发明专利技术实施例提供一种短英文影评分类方法及装置，其中，所述方法包括：获取待分类短英文影评文本的特征单词集；通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集，将所述第一预测结果集进行拼接并取算数平均得到新测试集；通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集，对所述第二预测结果集进行最小‑最大规范化处理，得到规范化结果集；采用简单多数法对所述规范化结果集进行处理，得到所述待分类短英文影评的分类结果。根据本发明专利技术的技术方案，极大地提高了分类结果的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种短英文影评分类方法及装置
本专利技术涉及网络科技领域，尤其涉及一种短英文影评分类方法及装置。
技术介绍
随着大数据时代的到来，在线评论数据量日趋庞大，海量数据及良莠不齐的评论质量使影评的效用研究具有更为现实的意义。电影评论深度挖掘的目标在于分析和评价蕴含在影评中所体现出的价值。发展至今，电影评论已从纸质影评发展到电子影评阶段。目前很多电影网站都提供电影评论作为观影的参考。将电影评论作为信息源，将消费者作为信息阅读者，信息源的语言特征和语义内容对信息阅读者的判断和行为表现有直接影响。目前研究现状主要有以下方面：基于TF-IDF的传统分类方法，该方法简单快速，能够很好的完成提取文章中关键词的目标，结果比较符合实际，但该方法只单纯考虑词频，无法直接应用在影评文本中。基于Word2Vec的传统分类方法，Word2Vec特征提取方法克服传统TF-IDF方法在语序和语义方面表现不佳的问题，同时将TF-IDF的高维稀疏向量空间降维到低维稠密向量空间，大大降低计算成本，但该方法存在情感词典无法有效考察文本的上下文语境信息的问题。基于Word2Vec的stacking融合分类方法，stacking算法是1992年Worlpert提出的StackedGeneralization的学习模型，对基分类器的学习结果进行再集成得到集成模型预测结果，既能集成各基分类器的训练结果，也能组合各种可能决定分类的相关信息，因此普遍认为其性能优于贝叶斯投票方法，但该方法存在短文本情感分类准确率较低的问题。但现有传统分类方法中，大量使如SVC、朴素贝叶斯、决策树、逻辑回归等算法，其普遍存在着数...

【技术保护点】
1.一种短英文影评分类方法，其特征在于，包括：获取待分类短英文影评文本的特征单词集；通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集，将所述第一预测结果集进行拼接并取算数平均得到新测试集；通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集，对所述第二预测结果集进行最小‑最大规范化处理，得到规范化结果集；采用简单多数法对所述规范化结果集进行处理，得到所述待分类短英文影评的分类结果。

【技术特征摘要】
1.一种短英文影评分类方法，其特征在于，包括：获取待分类短英文影评文本的特征单词集；通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集，将所述第一预测结果集进行拼接并取算数平均得到新测试集；通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集，对所述第二预测结果集进行最小-最大规范化处理，得到规范化结果集；采用简单多数法对所述规范化结果集进行处理，得到所述待分类短英文影评的分类结果。2.如权利要求1所述的方法，其特征在于，所述获取待分类短英文影评文本的特征单词，包括：获取待分类短英文影评文本；根据语料库对所述待分类短英文影评文本进行数据清洗与去燥；通过Word2Vec特征提取法提取所述清洗与去燥后的待分类短英文影评文本中的特征单词，获得待分类短英文影评文本的特征单词集。3.如权利要求1所述的方法，其特征在于，所述预先训练的第一层分类模型通过以下步骤获得：采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型；获取训练集数据和验证集数据；根据所述训练集数据以交叉验证法对上述每一个算法进行训练，获得预先训练的第一层分类模型；并通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。4.如权利要求3所述的方法，其特征在于，所述预先训练的第二层分类模型通过以下步骤获得：采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型；将所述第一训练结果集拼接后得到第二层模型的新训练集数据，根据所述新训练集数据对第二层分类模型算法依次进行训练，获得预先训练的第二层分类模型。5.如权利要求1所述的方法，其特征在于，所述对第二预测结果集进行最小-最大规范化处理，得到规范化结果集，包括：根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理，得到最小-最大规范化处理后的预测结果r′ij：其中，rij为第二层分类模型中第i个模型对第j个特征单词的预测结果，min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率，max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率；将最小-最大规范化处理后的预测结果r′ij组成规范化结果集。6.如权利要求5所述的方法，其特征在于，所述采用简单多数法对所述规范化结果集进行处理，得到所述待分类短英文影评的分类结果，包括：根据以下公式对所述规范化结果集中的预测结果r′ij进行处理：其中，rj表示第j个特征单词对应的...

【专利技术属性】
技术研发人员：唐恒亮，米源，薛菲，
申请(专利权)人：北京物资学院，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人