一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法技术

技术编号:11587908 阅读:102 留言:0更新日期:2015-06-10 21:00
本发明专利技术公开了一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,包括:构建语料库,并利用语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵;利用构建的参考评论数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵,结合分句的上下文语境依次对待分析评论数据集中需要进行隐式属性挖掘的每一条分句进行挖掘,从而得到隐式属性挖掘的结果。本发明专利技术综合利用了两种不同的词语关联关系:属性词与情感词之间的修饰关系、属性词与实词之间的共现关系,并融合分句的上下文语境进行推断,从而大大提高了隐式属性挖掘的准确率。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,具体涉及一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
技术介绍
在观点挖掘领域,属性词挖掘和情感词挖掘是两个基本的子任务。通过属性词挖掘,能够对用户观点进行分类汇总,从而为用户提供更好的决策支持。目前,面向产品评论的属性词挖掘技术,主要分为显式属性挖掘和隐式属性挖掘两大类。显式属性挖掘相对简单,学者们已经开展了大量的研究工作。而隐式属性挖掘则十分复杂,目前相关研究工作较少。在隐式属性挖掘方面,Liu等人在文献《Opinion observer:analyzing and comparing opinions on the Web》中提出了通过规则挖掘(rule mining)的方式建立产品属性和属性值间的映射,比如将“heavy”映射到属性“weight”,将“big”映射到属性“size”,然后通过上述映射关系进行隐式属性的挖掘。然而,映射规则的建立需要一定的人工标注,因此,隐式属性挖掘的准确率受限于规则标注的数量和质量。此外本文档来自技高网...
一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法

【技术保护点】
一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特征在于,包括如下步骤:(1)构建语料库,并利用所述的语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵;(2)依次对待分析评论数据集中的每一条分句进行处理,对当前分句进行处理时,首先利用所述的属性词词典判断当前分句是否需要进行隐式属性挖掘,若不需要,则直接处理下一条分句,否则,进行如下操作:(2‑1)利用所述的情感词词典和属性词‑情感词修饰矩阵确定当前分句的候选属性词数组Af;(2‑2)分析当前分句的上下文语境,如果其前一条分句或后一条分句中存在显式属性词fi,且则将...

【技术特征摘要】
1.一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特
征在于,包括如下步骤:
(1)构建语料库,并利用所述的语料库构建当前品类产品的参考评论
数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和
属性词-实词共现矩阵;
(2)依次对待分析评论数据集中的每一条分句进行处理,对当前分句
进行处理时,首先利用所述的属性词词典判断当前分句是否需要进行隐式属
性挖掘,若不需要,则直接处理下一条分句,否则,进行如下操作:
(2-1)利用所述的情感词词典和属性词-情感词修饰矩阵确定当前分
句的候选属性词数组Af;
(2-2)分析当前分句的上下文语境,如果其前一条分句或后一条分
句中存在显式属性词fi,且则将fi加入到当前分句的候选属性词数
组Af中,并将fi的上下文权值赋值为1;若fi∈Af,则增大fi的上下文权
值1≤i≤nf,nf表示候选属性词数组Af中属性词的个数;
(2-3)利用所述的情感词词典和实词词典构建当前分句的实词数组
At,针对当前分句的候选属性词数组Af中的每一个属性词,根据属性词和实
词的共现次数、实词数组At中每个实词在参考评论数据集中的出现情况以及
属性词的上下文权值计算该属性词与实词数组At中所有实词的加权关联值,
并选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果。
2.如权利要求1所述的融合词语关联关系和上下文语境推断的隐式属
性挖掘方法,其特征在于,所述步骤(1)包括如下操作:
(1-1)获取不同品类产品的评论数据,并对获取的评论数据进行预处
理;
(1-2)利用所有预处理后的评论数据构建语料库;
(1-3)针对当前品类的产品,将语料库中当前品类产品的评论数据作
为当前品类产品的参考评论数据集,并基于所述的参考评论数据集构建当前
品类产品的属性词词典、情感词词典和实词词典;
(1-4)基于所述的参考评论数据集,利用所述的属性词词典、情感词
词典和实词词典构建属性词-情感词修饰矩阵和属性词-实词共现矩阵;
所述的属性词-情感词修饰矩阵中的值表示任意一个属性词与任意一个
情感词在参考评论数据集中共现的次数,所述的属性词-实词共现矩阵中的
值表示任意一个属性词与任意一个实词在参考评论数据集中共现的次数。
3.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属
性挖掘方法,其特征在于,所述步骤(1-1)对评论数据进行预处理如下:
(1-11)对评论数据的规范化处理:将评论数据中的繁体字转换为简体
字,识别其中的错别字并进行更正,并对存在乱码和包含无法识别的外文单
词的评论语句进行删除;
(1-12)垃圾评论过滤:利用正则表达式对含有QQ号、手机号、网站
网址信息的评论语句进行过滤;
(1-13)对评论数据进行中文分词和词性标注,然后进行停用词过滤,
最后删除通篇无标点和分句过长的评论语句。
4.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属
性挖掘方法,其特征在于,所述步骤(1-3)根据各个实词、属性词和情感
词在所述的参考评论数据集中的出现情况构建属性词词典、情感词词典和实
词词典。
5.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属
性挖掘方法,其特征在于,所述步骤(1-4)包括如下操作:<...

【专利技术属性】
技术研发人员:张宇刘妙
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1