一种短英文影评分类方法及装置制造方法及图纸

技术编号:22330178 阅读:35 留言:0更新日期:2019-10-19 12:17
本发明专利技术实施例提供一种短英文影评分类方法及装置,其中,所述方法包括:获取待分类短英文影评文本的特征单词集;通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小‑最大规范化处理,得到规范化结果集;采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。根据本发明专利技术的技术方案,极大地提高了分类结果的准确性和鲁棒性。

【技术实现步骤摘要】
一种短英文影评分类方法及装置
本专利技术涉及网络科技领域,尤其涉及一种短英文影评分类方法及装置。
技术介绍
随着大数据时代的到来,在线评论数据量日趋庞大,海量数据及良莠不齐的评论质量使影评的效用研究具有更为现实的意义。电影评论深度挖掘的目标在于分析和评价蕴含在影评中所体现出的价值。发展至今,电影评论已从纸质影评发展到电子影评阶段。目前很多电影网站都提供电影评论作为观影的参考。将电影评论作为信息源,将消费者作为信息阅读者,信息源的语言特征和语义内容对信息阅读者的判断和行为表现有直接影响。目前研究现状主要有以下方面:基于TF-IDF的传统分类方法,该方法简单快速,能够很好的完成提取文章中关键词的目标,结果比较符合实际,但该方法只单纯考虑词频,无法直接应用在影评文本中。基于Word2Vec的传统分类方法,Word2Vec特征提取方法克服传统TF-IDF方法在语序和语义方面表现不佳的问题,同时将TF-IDF的高维稀疏向量空间降维到低维稠密向量空间,大大降低计算成本,但该方法存在情感词典无法有效考察文本的上下文语境信息的问题。基于Word2Vec的stacking融合分类方法,stacking算法是1992年Worlpert提出的StackedGeneralization的学习模型,对基分类器的学习结果进行再集成得到集成模型预测结果,既能集成各基分类器的训练结果,也能组合各种可能决定分类的相关信息,因此普遍认为其性能优于贝叶斯投票方法,但该方法存在短文本情感分类准确率较低的问题。但现有传统分类方法中,大量使如SVC、朴素贝叶斯、决策树、逻辑回归等算法,其普遍存在着数据过拟合的问题,使得影评二分类问题的准确率较低。
技术实现思路
本专利技术的目的是提供一种短英文影评分类方法,为了提高影评二分类问题的准确率,使分类结果具有较好的准确性和鲁棒性。为达到上述目的,一方面,本专利技术实施例提供一种短英文影评分类方法,包括:获取待分类短英文影评文本的特征单词集;通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。另一方面,本专利技术提供一种基短英文影评分类装置,包括:获取单元,用于获取待分类短英文影评文本的特征单词集;第一分类单元,用于通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;第二分类单元,用于通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;结果确定单元,用于采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。上述技术方案具有如下有益效果:本专利技术实施例提供的以上方案,采用改进stacking算法融合处理多个分类器的分类结果,最后采用最小-最大规范化与简单多数法对预测结果进行处理。结果表明,基于改进stacking算法的短英文影评分类方法具有较好的准确性和鲁棒性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一种短英文影评分类方法的流程图;图2是本专利技术实施例一种短英文影评分类装置的结构图;图3是本专利技术实施例一种短英文影评分类装置中获取单元的结构图;图4是本专利技术实施例一种短英文影评分类装置中第一模型训练单元的结构图;图5是本专利技术实施例一种短英文影评分类装置中第二模型训练单元的结构图;图6是本专利技术实施例一种短英文影评分类方法的流框架图;图7是本专利技术实施例一种CBOW模型图;图8是本专利技术验证实施例中八种传统分类器的实验结果图;图9是本专利技术验证实施例中基于Word2Vec的八种传统分类器实验详细数据图;图10是本专利技术验证实施例中基于改进stacking算法中不同K值实验数据变化图;图11是本专利技术验证实施例中基于改进stacking算法中不同K值实验数据结果图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,为本专利技术实施例一种短英文影评分类方法的流程图,包括以下步骤:步骤101,获取待分类短英文影评文本的特征单词集。优选地,所述获取待分类短英文影评文本的特征单词集,包括:获取待分类短英文影评文本;根据语料库对所待分类短英文影评文本进行数据清洗与去燥;通过Word2Vec特征提取法提取所述清洗与去燥后的待分类短英文影评文本中的特征单词,获得待分类短英文影评文本的特征单词集。步骤102,通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集。优选地,所述预先训练的第一层分类模型通过以下步骤获得:采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型;获取训练集数据和验证集数据;根据所述训练集数据以交叉验证法对上述每一个算法进行训练,获得预先训练的第一层分类模型;并通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。步骤103,通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集。优选地,所述预先训练的第二层分类模型通过以下步骤获得:采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型;将所述第一训练结果集拼接后得到第二层模型的新训练集数据,根据所述新训练集数据对第二层分类模型算法依次进行训练,获得预先训练的第二层分类模型。优选地,所述对第二预测结果集进行最小-最大规范化处理,具体包括:根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理,得到最小-最大规范化处理后的预测结果r'ij:其中,rij为第二层分类模型中第i个模型对第j个特征单词的预测结果,min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率,max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率;将Ri看做一组乱序数值,min(Ri)表示取Ri中的最小值,同理max(Ri)为最大值,举例假设Ri=[1,2,3,2,1,4,5,6],则min(Ri)=1,max(Ri)=6,将最小-最大规范化处理后的预测结果r'ij组成规范化结果集。步骤104,采用简单多数法对所述规范化结果集进行处理,得到本文档来自技高网
...

【技术保护点】
1.一种短英文影评分类方法,其特征在于,包括:获取待分类短英文影评文本的特征单词集;通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小‑最大规范化处理,得到规范化结果集;采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。

【技术特征摘要】
1.一种短英文影评分类方法,其特征在于,包括:获取待分类短英文影评文本的特征单词集;通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。2.如权利要求1所述的方法,其特征在于,所述获取待分类短英文影评文本的特征单词,包括:获取待分类短英文影评文本;根据语料库对所述待分类短英文影评文本进行数据清洗与去燥;通过Word2Vec特征提取法提取所述清洗与去燥后的待分类短英文影评文本中的特征单词,获得待分类短英文影评文本的特征单词集。3.如权利要求1所述的方法,其特征在于,所述预先训练的第一层分类模型通过以下步骤获得:采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型;获取训练集数据和验证集数据;根据所述训练集数据以交叉验证法对上述每一个算法进行训练,获得预先训练的第一层分类模型;并通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。4.如权利要求3所述的方法,其特征在于,所述预先训练的第二层分类模型通过以下步骤获得:采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型;将所述第一训练结果集拼接后得到第二层模型的新训练集数据,根据所述新训练集数据对第二层分类模型算法依次进行训练,获得预先训练的第二层分类模型。5.如权利要求1所述的方法,其特征在于,所述对第二预测结果集进行最小-最大规范化处理,得到规范化结果集,包括:根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理,得到最小-最大规范化处理后的预测结果r′ij:其中,rij为第二层分类模型中第i个模型对第j个特征单词的预测结果,min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率,max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率;将最小-最大规范化处理后的预测结果r′ij组成规范化结果集。6.如权利要求5所述的方法,其特征在于,所述采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果,包括:根据以下公式对所述规范化结果集中的预测结果r′ij进行处理:其中,rj表示第j个特征单词对应的...

【专利技术属性】
技术研发人员:唐恒亮米源薛菲
申请(专利权)人:北京物资学院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1