【技术实现步骤摘要】
本专利技术涉及计算机领域,尤其涉及一种基于AdaBoost的跨语言情感资源数据识别方法。
技术介绍
随着微博等社交网络平台的快速发展,文本情感分类技术已成为文本信息处理的热点。有标注的情感资源为文本情感识别研究提供了基础。目前,英文领域的语料资源有SentiWordNet,细粒度情感分析语料MPQA等;中文领域有HowNet情感词典,大连理工情感词汇本体等。然而,有标注的语料在不同语言下的分布是不均衡的。当缺乏某种语言的有标注语料时,利用其它语言的有标注语料来辅助进行情感识别已成为一个热门课题。跨语言情感分析(Cross Lingual Sentiment Analysis,CLSA)是指利用已有语言的有标注语料,辅助另一种语言来进行情感倾向性分析。现有的CLSA技术有利用双语词典或对齐语料库建立两种语言的对应关系,再运用相似技术进行目标语言的情感分析。也有利用机器翻译技术,先将不同语言翻译成同一种语言,再在单语上应用情感分析方法。Wan等人利用机器翻译技术将有标注的英文文本与未标注的中文文本互译,再运用Co-Training算法进行中文情感识别。徐军针对机器翻译的不准确性问题提出了一种迁移自学习算法,通过自动标记训练集中的高置信度翻译样本,对分类器进行迭代训练。上述研究都是基于不同语料背景的。当已有语料资源的背景不同时,CLSA策略也有所区别。另外,情感资源迁移的策略与情感识别的方法密切相关,不 ...
【技术保护点】
一种基于AdaBoost的跨语言情感资源数据识别方法,其特征在于,包括如下步骤:步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原始数据d对于类别的后验概率,由此判断原始数据d的类别;步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类器;步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适用于目标语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语言情感资源数据。
【技术特征摘要】 【专利技术属性】
1.一种基于AdaBoost的跨语言情感资源数据识别方法,其特征在于,包
括如下步骤:
步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原
始数据d对于类别的后验概率,由此判断原始数据d的类别;
步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运
用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类
器;
步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适
用于目标语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语
言情感资源数据。
2.根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法,
其特征在于,所述步骤1包括:
计算原始数据的先验概率;再提取原始数据的情感特征,计算特征的条件
技术研发人员:卢玲,杨武,刘恒洋,
申请(专利权)人:重庆理工大学,
类型:发明
国别省市:重庆;85
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。