面向产品评论的跨领域对偶情感分析方法技术

技术编号:19240310 阅读:72 留言:0更新日期:2018-10-24 03:53
本发明专利技术公开了一种面向产品评论的跨领域对偶情感分析方法,该方法包括:对于给定目标领域的产品评论数据,获取源领域标注语料资源,随后对源领域和目标领域的样本数据预处理;借助英文本体库为语料中的特征词构建具有一对多关系的带权反义词典;结合改进的知识规则和带权反义词典为源领域和目标领域的样本构造翻转数据集,扩充语料;采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示,并对翻转样本中引入的带权情感词进行加权表示;采用对偶学习方法训练基分类器,并使用基于置信度的集成策略进行基分类器集成。本发明专利技术能较好地解决情感分析任务中产品评论等短文本的数据稀疏问题、极性转移问题,并在领域适应问题上表现良好。

【技术实现步骤摘要】
面向产品评论的跨领域对偶情感分析方法
本专利技术涉及人工智能、自然语言处理领域,具体涉及一种面向产品评论的跨领域情感分析方法。
技术介绍
随着计算机与网络技术的不断发展,当今互联网已进入社交媒体时代。越来越多的用户乐于在网络上分享自己对产品或事物观点和体验。微博、在线产品评论等带有主观倾向性的文本资源急剧膨胀。对于海量的主观文本信息,仅依靠人工进行跟踪、组织和管理已难以实现,如何利用计算机技术对互联网上的主观文本信息进行自动分析、挖掘用户的观点倾向,已逐渐成为当下最迫切的需求。文本主观倾向性分析,又称文本情感分析,是自然语言处理领域研究的热点问题之一。由于情感分析任务是一个领域相关的课题,即不同领域间数据分布的差异,往往导致特征词在不同领域表现不同的情感极性。传统的基于监督学习的机器学习方法需要大量的有标注样本构建模型,而对于标注语料匮乏的领域,采用人工标注的方式,不仅需要昂贵的人力成本,效率也很低;另一方面,随着情感分析任务的研究,部分领域已积累了充足的有情感标注信息的语料。如何利用情感标注语料丰富的领域对标注语料匮乏的目标领域的样本进行跨领域情感分析已逐渐成为情感分析领域研究的热点。虽然随着研究的深入,情感分析技术已取得了很大的进展,但仍存在一些问题有待进一步研究。如情感分类任务中的否定转移问题、领域适应问题、短文本数据稀疏问题等等。
技术实现思路
本专利技术的目的在于提供一种面向产品评论的跨领域对偶情感分析方法,解决产品评论、微博等短文本的数据稀疏性、否定情感转移问题及情感分类任务的领域适应问题。实现本专利技术目的的技术方案为:一种面向产品评论的跨领域对偶情感分析方法,包括以下步骤:步骤1,对于给定目标领域的产品评论数据,首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域,获取源领域标注语料资源;随后对源领域和目标领域的样本数据预处理,包括分词、词性标注和停用词过滤;步骤2,借助英文本体库通过迭代查询的方式遍历源领域及目标领域语料中所有特征词的反义词,并根据反义词在数据集中的词频信息,为每个特征词的多个反义词分别设置权重,构建具备一对多关系的带权反义词典;步骤3,使用步骤2构建的带权反义词典,结合跨领域翻转样本构造规则构造翻转样本,从而扩充源领域和目标领域的样本数据;步骤4,采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示,并对翻转样本中引入的带权情感词进行加权表示;步骤5,采用对偶学习方法训练基分类器,并使用基于置信度的集成策略进行基分类器集成。与现有技术相比,本专利技术的有益效果为:(1)否定词、转折词的出现往往伴随情感极性的转移,本专利技术通过设计跨领域翻转样本构造规则扩充样本集的同时,有效的解决了否定、转折语言结构中的情感极性转移问题;(2)借助英文本体库查询源领域和目标领域语料中每个特征词的反义词,并根据每个特征词的多个反义词在数据集中的频率信息分别为其设置权重;这种带权反义词典体现了特征词在源领域和目标领域的综合分布。(3)通过移除原样本中的特征词,并采用加权的方式为移除的特征词引入多个情感反义词,有效的改善了短文本的数据稀疏性。(4)在构建翻转样本时,对原样本中的情感词采用一对多的替换方法,引入丰富的先验知识的同时,为样本引入了来自全局情感特征词,从而削弱样本中情感词的领域依赖性,使得翻转样本更具有领域适应性,为跨领域情感分析提供了新的思路。附图说明图1为本专利技术面向产品评论的跨领域对偶情感分析方法的流程图。具体实施方式结合图1,本专利技术的一种面向产品评论的跨领域对偶情感分析方法,包括以下步骤:步骤1,对于给定目标领域的产品评论数据,首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域,获取源领域标注语料资源;随后对源领域和目标领域的样本数据预处理,包括分词、词性标注和停用词过滤;步骤2,借助英文本体库通过迭代查询的方式遍历源领域及目标领域语料中所有特征词的反义词,并根据反义词在数据集中的词频信息,为每个特征词的多个反义词分别设置权重,构建具备一对多关系的带权反义词典;步骤3,使用步骤2构建的带权反义词典,结合跨领域翻转样本构造规则构造翻转样本,从而扩充源领域和目标领域的样本数据;步骤4,采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示,并对翻转样本中引入的带权情感词进行加权表示;步骤5,采用对偶学习方法训练基分类器,并使用基于置信度的集成策略进行基分类器集成。进一步的,所述步骤1具体为:A)对于给定目标领域的产品评论数据,首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域,获取源领域标注语料资源;B)使用现有的开源分词和词性标注工具对源领域及目标领域的语料进行分词、词性标注,并过滤语料中的停用词。进一步的,使用的分词和词性标注工具包括NLTK,Stanford-PosTagger。进一步的,步骤2所述具有一对多关系的带权反义词典的构建方法具体为:借助英文本体库通过迭代查询的方式遍历源领域和目标领域中所有形容词、动词、副词的反义词,并根据各反义词在数据集的词频信息,为每个特征择的多个反义词分别设置权重,构建具备一对多关系的带权反义词典;特征词的反义词权重计算策略如下:A)BOOL权重策略,即将每个特征词的多个反义词的权重均设置为1;B)词频权重策略,采用一种基于词频与权重映射关系的表示方法;首先,定义一种词频和权重信息的映射关系,表示为:其中为权重向量,维度为词表大小,为词频权重,为词表,#V为词表大小。进一步的,使用的英文本体库为WordNet。进一步的,步骤3中跨领域翻转样本构造规则具体为:A)对样本按标点切分子句;若子句中不存在否定词或转折词,则将子句中的情感词移除,并将被移除情感词的所有反义词加入该样本的“词袋”;若子句中存在否定或转折词,则移除否定词和转折词,否定域和转折域中的情感词保持不变,否定域外的情感词仍按子句中不存在否定词或转折词的规则构造翻转样本;B)翻转训练集中样本的情感标签。进一步的,步骤4具体为:文本特征采用BOOL权重表示方法,对于样本中未翻转词语仍使用BOOL权重表示,对于翻转后添加的词语,使用步骤3所述带权反义词典进行加权表示。进一步的,所述步骤5中,采用Logistic模型或NavieBayes算法学习基分类器,具体为:A)对偶学习阶段:使用源领域的原样本和翻转样本作为训练集训练基分类器clsa;仅使用源领域的原样本训练基分类器clsb;B)对偶预测阶段:使用基分类器clsa分别预测目标领域原样本和翻转样本;使用基分类器clsb预测目标领域原样本;C)分类器集成阶段:(1)基于权重的集成:如式(2)中所示,其中权重参数α,0≤α≤1,po(+|x)为基分类器clsa预测目标领域原样本为正类的概率,为基分类器clsa预测目标领域翻转样本预测为负类的概率;为采用(2)中加权的方式集成目标领域原样本、翻转样本关于类别y的预测概率;(2)基于置信度的集成:采用置信度平滑概率,如式(3)所示,其中为样本最终预测的标签,p(y|x)为基分类器clsb预测目标领域原样本的概率,Δp为c为置信度,取[-0.3,0.3],其中,当c<0时,系统更信任基于权重的集成下面结合实施例对本专利技术作进一步说明。实施例一种面向产品本文档来自技高网...

【技术保护点】
1.一种面向产品评论的跨领域对偶情感分析方法,其特征在于,包括以下步骤:步骤1,对于给定目标领域的产品评论数据,首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域,获取源领域标注语料资源;随后对源领域和目标领域的样本数据预处理,包括分词、词性标注和停用词过滤;步骤2,借助英文本体库通过迭代查询的方式遍历源领域及目标领域语料中所有特征词的反义词,并根据反义词在数据集中的词频信息,为每个特征词的多个反义词分别设置权重,构建具备一对多关系的带权反义词典;步骤3,使用步骤2构建的带权反义词典,结合跨领域翻转样本构造规则构造翻转样本,从而扩充源领域和目标领域的样本数据;步骤4,采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示,并对翻转样本中引入的带权情感词进行加权表示;步骤5,采用对偶学习方法训练基分类器,并使用基于置信度的集成策略进行基分类器集成。

【技术特征摘要】
1.一种面向产品评论的跨领域对偶情感分析方法,其特征在于,包括以下步骤:步骤1,对于给定目标领域的产品评论数据,首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域,获取源领域标注语料资源;随后对源领域和目标领域的样本数据预处理,包括分词、词性标注和停用词过滤;步骤2,借助英文本体库通过迭代查询的方式遍历源领域及目标领域语料中所有特征词的反义词,并根据反义词在数据集中的词频信息,为每个特征词的多个反义词分别设置权重,构建具备一对多关系的带权反义词典;步骤3,使用步骤2构建的带权反义词典,结合跨领域翻转样本构造规则构造翻转样本,从而扩充源领域和目标领域的样本数据;步骤4,采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示,并对翻转样本中引入的带权情感词进行加权表示;步骤5,采用对偶学习方法训练基分类器,并使用基于置信度的集成策略进行基分类器集成。2.根据权利要求1所述的面向产品评论的跨领域对偶情感分析方法,其特征在于,所述步骤1具体为:A)对于给定目标领域的产品评论数据,首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域,获取源领域标注语料资源;B)使用现有的开源分词和词性标注工具对源领域及目标领域的语料进行分词、词性标注,并过滤语料中的停用词。3.根据权利要求2所述的面向产品评论的跨领域对偶情感分析方法,其特征在于,使用的分词和词性标注工具包括NLTK,Stanford-PosTagger。4.根据权利要求1所述的面向产品评论的跨领域对偶情感分析方法,其特征在于,步骤2所述具有一对多关系的带权反义词典的构建方法具体为:借助英文本体库通过迭代查询的方式遍历源领域和目标领域中所有形容词、动词、副词的反义词,并根据各反义词在数据集的词频信息,为每个特征择的多个反义词分别设置权重,构建具备一对多关系的带权反义词典;特征词的反义词权重计算策略如下:A)BOOL权重策略,即将每个特征词的多个反义词的权重均设置为1。B)词频权重策略,采用一种基于词频与权重映射关系的表示方法。首先,定义一种词频和权重...

【专利技术属性】
技术研发人员:夏睿王乐义
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1