基于委员会查询的主动学习框架的情感分析方法及系统技术方案

技术编号：21432443 阅读：32 留言：0更新日期：2019-06-22 11:59

本发明专利技术提供一种基于委员会查询的主动学习框架的情感分析方法及系统，其方法包括：获取训练语料，并在所述训练语料中选取样本数据进行标注，形成训练集，根据所述训练集构建初始模型，根据用户情感表征进行数据分类，根据委员会投票选择算法，从未标注的训练语料中选择样本数据，并进行标注，补充至所述训练集中，根据补充后的训练集对所述初始模型进行更新迭代学习，获取情感分析模型，通过所述情感分析模型，对输入的文本进行情感分析，获取情感分析结果；本发明专利技术通过引入主动学习，在情感分析任务中，在减少训练语料的情况下，减少了人工标注的代价，同时模型的性能达到预期。

全部详细技术资料下载

【技术实现步骤摘要】
基于委员会查询的主动学习框架的情感分析方法及系统
本专利技术涉及计算机应用领域，尤其涉及一种基于委员会查询的主动学习框架的情感分析方法及系统。
技术介绍
文本情感分析又称为意见挖掘，情感分析可以被认为是一个多分类任务，一般将用户的情绪分为三类：积极、中性、负面。随着互联网的发展和带有情感色彩的用户主观性评论文本的增多，我们可以方便的获取大量的评论数据，但是人工标注大量的训练样本费时费力，成本太大。另外，过多的低质量的训练样本反而会降低分类模型的鲁棒性，甚至导致“过学习”问题。主动学习在理论和实际应用中都得到了长远的发展，主动学习将原始数据集分成两大部分，一部分是少量的经由专家学者人工标识过的带类标签的样本集，另一部分则包含大量的没带类标签的未标识样本集，它将利用这少量的已标记样本及作为训练集去训练一个分类模型，然后根据学习到的模型对未标识样本按照某种选择方式进行选择，找出其中包括信息量最大的未标识样本交由专家系统进行标记后加入到已标识训练样本中，不断重复这个过程直至达到终止条件。随着这个过程的不断迭代进行，已标识训练样本集不断扩大，其学期起的分类精度也将会得到不断...

【技术保护点】
1.一种基于委员会查询的主动学习框架的情感分析方法，其特征在于，包括：获取训练语料，并在所述训练语料中选取样本数据进行标注，形成训练集；根据所述训练集构建初始模型，根据用户情感表征进行数据分类；根据委员会投票选择算法，从未标注的训练语料中选择样本数据，并进行标注，补充至所述训练集中；根据补充后的训练集对所述初始模型进行更新迭代学习，获取情感分析模型；通过所述情感分析模型，对输入的文本进行情感分析，获取情感分析结果。

【技术特征摘要】
1.一种基于委员会查询的主动学习框架的情感分析方法，其特征在于，包括：获取训练语料，并在所述训练语料中选取样本数据进行标注，形成训练集；根据所述训练集构建初始模型，根据用户情感表征进行数据分类；根据委员会投票选择算法，从未标注的训练语料中选择样本数据，并进行标注，补充至所述训练集中；根据补充后的训练集对所述初始模型进行更新迭代学习，获取情感分析模型；通过所述情感分析模型，对输入的文本进行情感分析，获取情感分析结果。2.根据权利要求1所述的基于委员会查询的主动学习框架的情感分析方法，其特征在于，在获取训练语料之前还包括采集中文文本数据，并对所述中文文本数据进行预处理，所述预处理包括：对所述中文文本数据进行分词处理；根据预先构建的停用词表对经过分词处理后的数据进行去停用词处理；通过预先选取的文本特征，对经过去停用词处理后的数据进行特征权重计算，获取对应的文本特征在文本中的重要程度。3.根据权利要求1所述的基于委员会查询的主动学习框架的情感分析方法，其特征在于，所述初始模型进行数据分类的种类至少包括正面、中性和负面，通过数据分类对用户的不同情感进行表征，在未标注的训练语料中选择分类贡献率高于预设阈值的样本数据，并进行标注，补充至所述训练集中。4.根据权利要求2所述的基于委员会查询的主动学习框架的情感分析方法，其特征在于，根据委员会投票选择算法在所述训练语料中选取投票最不一致的前K个语料，并对前K个语料进行标注，标注的类别至少包括正面、中性和负面。5.根据权利要求4所述的基于委员会查询的主动学习框架的情感分析方法，其特征在于，所述委员会投票选择算法通过如下公式获取：其中，V(c,e)为预测样本e被分类为类别c的委员会成员的数量，K为委员会成员的总...

【专利技术属性】
技术研发人员：王新日，洪敏，胡宇，万里，
申请(专利权)人：重庆恢恢信息技术有限公司，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人