基于AdaBoost的跨语言情感资源数据识别方法技术

技术编号:11203859 阅读:96 留言:0更新日期:2015-03-26 11:54
本发明专利技术公开了一种基于AdaBoost的跨语言情感资源数据识别方法,包括如下步骤:步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原始数据d对于类别的后验概率,由此判断原始数据d的类别;步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类器;步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适用于目标语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语言情感资源数据。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种基于AdaBoost的跨语言情感资源数据识别方法
技术介绍
随着微博等社交网络平台的快速发展,文本情感分类技术已成为文本信息处理的热点。有标注的情感资源为文本情感识别研究提供了基础。目前,英文领域的语料资源有SentiWordNet,细粒度情感分析语料MPQA等;中文领域有HowNet情感词典,大连理工情感词汇本体等。然而,有标注的语料在不同语言下的分布是不均衡的。当缺乏某种语言的有标注语料时,利用其它语言的有标注语料来辅助进行情感识别已成为一个热门课题。跨语言情感分析(Cross Lingual Sentiment Analysis,CLSA)是指利用已有语言的有标注语料,辅助另一种语言来进行情感倾向性分析。现有的CLSA技术有利用双语词典或对齐语料库建立两种语言的对应关系,再运用相似技术进行目标语言的情感分析。也有利用机器翻译技术,先将不同语言翻译成同一种语言,再在单语上应用情感分析方法。Wan等人利用机器翻译技术将有标注的英文文本与未标注的中文文本互译,再运用Co-Training算法进行中文情感识别。徐军针对机器翻译的不准确性问题提出了一种迁移自学习算法,通过自动标记训练集中的高置信度翻译样本,对分类器进行迭代训练。上述研究都是基于不同语料背景的。当已有语料资源的背景不同时,CLSA策略也有所区别。另外,情感资源迁移的策略与情感识别的方法密切相关,不能抛开情感识别方法而单独研究情感迁移策略。本专利技术提出了一种基于AdaBoost算法的情感资源迁移方法。首先将小规模的目标语言训练集翻译成源语言,再与大规模源语言训练集合并构建初始弱分类器;接着运用AdaBoost算法训练多分类器;经过多分类器协同实现了跨语言的情感识别。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于AdaBoost的跨语言情感资源数据识别方法。为了实现本专利技术的上述目的,本专利技术提供了一种基于AdaBoost的跨语言情感资源数据识别方法,其关键在于,包括如下步骤:步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原始数据d对于类别的后验概率,由此判断原始数据d的类别;步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类器;步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适用于目标语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语言情感资源数据。所述的基于AdaBoost的跨语言情感资源数据识别方法,优选的,所述步骤1包括:计算原始数据的先验概率;再提取原始数据的情感特征,计算特征的条件概率;最后以后验概率最大的类别作为情感资源数据识别初步判断结果。所述的基于AdaBoost的跨语言情感资源数据识别方法,优选的,所述步骤2包括:步骤2-1,构造多个弱分类器协同工作,通过AdaBoost情感资源数据识别算法不断调整样本分布,训练新的弱分类器,经过反复迭代产生一个包含各弱分类器权值的向量;步骤2-2,通过AdaBoost情感资源数据识别算法训练源语言训练集和目标语言训练集。所述的基于AdaBoost的跨语言情感资源数据识别方法,优选的,所述步骤2还包括:步骤2-3,进行初始化,令迭代轮次k=1;步骤2-4,建立联合训练集,令联合训练集CRk=R∪Ts,如下公式:CRk={di(yi,wi(k))本文档来自技高网
...
基于AdaBoost的跨语言情感资源数据识别方法

【技术保护点】
一种基于AdaBoost的跨语言情感资源数据识别方法,其特征在于,包括如下步骤:步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原始数据d对于类别的后验概率,由此判断原始数据d的类别;步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类器;步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适用于目标语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语言情感资源数据。

【技术特征摘要】
1.一种基于AdaBoost的跨语言情感资源数据识别方法,其特征在于,包
括如下步骤:
步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原
始数据d对于类别的后验概率,由此判断原始数据d的类别;
步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运
用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类
器;
步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适
用于目标语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语
言情感资源数据。
2.根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法,
其特征在于,所述步骤1包括:
计算原始数据的先验概率;再提取原始数据的情感特征,计算特征的条件

【专利技术属性】
技术研发人员:卢玲杨武刘恒洋
申请(专利权)人:重庆理工大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1