基于领域自适应的跨领域新闻数据情感分析方法技术

技术编号:20242374 阅读:37 留言:0更新日期:2019-01-29 23:21
本发明专利技术涉及一种基于领域自适应的跨领域新闻数据情感分析方法,将来自各个不同领域的新闻数据及映射到一个共同的潜空间中,使来自不同领域的新闻数据在所述潜空间中由一组共同的抽象特征表达,从而实现不同领域间的自适应;将新闻数据对应的情感标签也映射到所述潜空间中,使不同的情感标签在潜空间中距离的最大化,并且使新闻数据与其对应标签之间的距离最小化,由此增大分类器的决策边界;在所述潜空间中,基于所有领域的新闻数据建立一个分类器,然后通过建立的分类器对新的新闻文本数据进行情感分析。本发明专利技术通过领域自适应的方法,为不同领域的新闻找到一个有效的共同特征表达,实现跨领域信息融合,提高信息的利用率,节约时间及人力成本。

【技术实现步骤摘要】
基于领域自适应的跨领域新闻数据情感分析方法
本专利技术涉及数据分析及处理领域,尤其涉及一种基于领域自适应的跨领域新闻数据情感分析方法。
技术介绍
近年来随着互联网技术的飞速发展,在线新闻服务已经成为主要的网络信息载体。新闻文本大量地存在于门户网站,论坛,博客中,且大多数具有情感倾向(正面/中立/负面),对其进行倾向性判断可以为用户掌握社会动态和判别舆情状况提供重要的依据。从新闻文本中提取与主题、情感倾向相关的特征,利用机器学习的方法对情感倾向进行分类是现在最常用的情感分析方法之一。由于新闻涉及到的领域十分广泛,来自不同领域的新闻的特征表达往往互不相同,因此难以实现信息融合。往往需要对每个领域分别地进行分析,大大地增加了人力和时间成本。现有的情感分析方法主要基于两种思路:1、基于情感词典或情感知识库,对新闻文本中带有情感或者极性的词进行加权求和,并根据该值对新闻情感倾向进行判定。2、对文本提取具有表征意义的特征,再基于这些特征利用机器学习的方法训练预测模型,对文本的情感倾向进行判定。第一种方法常用于评论信息(如产品评价,电影、书籍评论等)的情感分析,因为这类文本中通常存在明显的情感词。本文档来自技高网...

【技术保护点】
1.一种基于领域自适应的跨领域新闻数据情感分析方法,其特征在于,将来自各个不同领域的新闻数据及映射到一个共同的潜空间中,使来自不同领域的新闻数据在所述潜空间中由一组共同的抽象特征表达,从而实现不同领域间的自适应;将新闻数据对应的情感标签也映射到所述潜空间中,使不同的情感标签在潜空间中距离的最大化,并且使新闻数据与其对应标签之间的距离最小化,由此增大分类器的决策边界从而实现更好的情感分类效果;在所述潜空间中,基于所有领域的新闻数据建立一个分类器,然后通过建立的分类器对新的新闻文本数据进行情感分析。

【技术特征摘要】
1.一种基于领域自适应的跨领域新闻数据情感分析方法,其特征在于,将来自各个不同领域的新闻数据及映射到一个共同的潜空间中,使来自不同领域的新闻数据在所述潜空间中由一组共同的抽象特征表达,从而实现不同领域间的自适应;将新闻数据对应的情感标签也映射到所述潜空间中,使不同的情感标签在潜空间中距离的最大化,并且使新闻数据与其对应标签之间的距离最小化,由此增大分类器的决策边界从而实现更好的情感分类效果;在所述潜空间中,基于所有领域的新闻数据建立一个分类器,然后通过建立的分类器对新的新闻文本数据进行情感分析。2.如权利要求1所述的方法,其特征在于,包括...

【专利技术属性】
技术研发人员:周爽吴锡冯翱
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1