面向产品评论的跨领域对偶情感分析方法技术

技术编号：19240310 阅读：72 留言：0更新日期：2018-10-24 03:53

本发明专利技术公开了一种面向产品评论的跨领域对偶情感分析方法，该方法包括：对于给定目标领域的产品评论数据，获取源领域标注语料资源，随后对源领域和目标领域的样本数据预处理；借助英文本体库为语料中的特征词构建具有一对多关系的带权反义词典；结合改进的知识规则和带权反义词典为源领域和目标领域的样本构造翻转数据集，扩充语料；采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示，并对翻转样本中引入的带权情感词进行加权表示；采用对偶学习方法训练基分类器，并使用基于置信度的集成策略进行基分类器集成。本发明专利技术能较好地解决情感分析任务中产品评论等短文本的数据稀疏问题、极性转移问题，并在领域适应问题上表现良好。

全部详细技术资料下载

【技术实现步骤摘要】
面向产品评论的跨领域对偶情感分析方法
本专利技术涉及人工智能、自然语言处理领域，具体涉及一种面向产品评论的跨领域情感分析方法。
技术介绍
随着计算机与网络技术的不断发展，当今互联网已进入社交媒体时代。越来越多的用户乐于在网络上分享自己对产品或事物观点和体验。微博、在线产品评论等带有主观倾向性的文本资源急剧膨胀。对于海量的主观文本信息，仅依靠人工进行跟踪、组织和管理已难以实现，如何利用计算机技术对互联网上的主观文本信息进行自动分析、挖掘用户的观点倾向，已逐渐成为当下最迫切的需求。文本主观倾向性分析，又称文本情感分析，是自然语言处理领域研究的热点问题之一。由于情感分析任务是一个领域相关的课题，即不同领域间数据分布的差异，往往导致特征词在不同领域表现不同的情感极性。传统的基于监督学习的机器学习方法需要大量的有标注样本构建模型，而对于标注语料匮乏的领域，采用人工标注的方式，不仅需要昂贵的人力成本，效率也很低；另一方面，随着情感分析任务的研究，部分领域已积累了充足的有情感标注信息的语料。如何利用情感标注语料丰富的领域对标注语料匮乏的目标领域的样本进行跨领域情感分析已逐渐成为情感分析领域研究的热点。虽然随着研究的深入，情感分析技术已取得了很大的进展，但仍存在一些问题有待进一步研究。如情感分类任务中的否定转移问题、领域适应问题、短文本数据稀疏问题等等。
技术实现思路
本专利技术的目的在于提供一种面向产品评论的跨领域对偶情感分析方法，解决产品评论、微博等短文本的数据稀疏性、否定情感转移问题及情感分类任务的领域适应问题。实现本专利技术目的的技术方案为：一种面向产品评论的跨领域对...

【技术保护点】
1.一种面向产品评论的跨领域对偶情感分析方法，其特征在于，包括以下步骤：步骤1，对于给定目标领域的产品评论数据，首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域，获取源领域标注语料资源；随后对源领域和目标领域的样本数据预处理，包括分词、词性标注和停用词过滤；步骤2，借助英文本体库通过迭代查询的方式遍历源领域及目标领域语料中所有特征词的反义词，并根据反义词在数据集中的词频信息，为每个特征词的多个反义词分别设置权重，构建具备一对多关系的带权反义词典；步骤3，使用步骤2构建的带权反义词典，结合跨领域翻转样本构造规则构造翻转样本，从而扩充源领域和目标领域的样本数据；步骤4，采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示，并对翻转样本中引入的带权情感词进行加权表示；步骤5，采用对偶学习方法训练基分类器，并使用基于置信度的集成策略进行基分类器集成。

【技术特征摘要】
1.一种面向产品评论的跨领域对偶情感分析方法，其特征在于，包括以下步骤：步骤1，对于给定目标领域的产品评论数据，首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域，获取源领域标注语料资源；随后对源领域和目标领域的样本数据预处理，包括分词、词性标注和停用词过滤；步骤2，借助英文本体库通过迭代查询的方式遍历源领域及目标领域语料中所有特征词的反义词，并根据反义词在数据集中的词频信息，为每个特征词的多个反义词分别设置权重，构建具备一对多关系的带权反义词典；步骤3，使用步骤2构建的带权反义词典，结合跨领域翻转样本构造规则构造翻转样本，从而扩充源领域和目标领域的样本数据；步骤4，采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示，并对翻转样本中引入的带权情感词进行加权表示；步骤5，采用对偶学习方法训练基分类器，并使用基于置信度的集成策略进行基分类器集成。2.根据权利要求1所述的面向产品评论的跨领域对偶情感分析方法，其特征在于，所述步骤1具体为：A)对于给定目标领域的产品评论数据，首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域，获取源领域标注语料资源；B)使用现有的开源分词和词性标注工具对源领域及目标领域的语料进行分词、词性标注，并过滤语料中的停用词。3.根据权利要求2所述的面向产品评论的跨领域对偶情感分析方法，其特征在于，使用的分词和词性标注工具包括NLTK，Stanford-PosTagger。4.根据权利要求1所述的面向产品评论的跨领域对偶情感分析方法，其特征在于，步骤2所述具有一对多关系的带权反义词典的构建方法具体为：借助英文本体库通过迭代查询的方式遍历源领域和目标领域中所有形容词、动词、副词的反义词，并根据各反义词在数据集的词频信息，为每个特征择的多个反义词分别设置权重，构建具备一对多关系的带权反义词典；特征词的反义词权重计算策略如下：A)BOOL权重策略，即将每个特征词的多个反义词的权重均设置为1。B)词频权重策略，采用一种基于词频与权重映射关系的表示方法。首先，定义一种词频和权重...

【专利技术属性】
技术研发人员：夏睿，王乐义，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人