一种基于转折句语义块划分机制的情感分类方法技术

技术编号:18658208 阅读:29 留言:0更新日期:2018-08-11 14:31
本发明专利技术公开了一种基于转折句语义块划分机制的情感分类方法,其步骤包括:1.利用已知的词向量字典,把训练集和测试集中的每条样本表示为词向量矩阵;2.选取合适的卷积核对词向量矩阵进行卷积,提取映射特征向量以实现降维;3.构建转折词字典,并通过查询转折词在样本中的位置,对提取的映射特征进行语义划分,提取每个划分块中的最重要信息,形成最终特征空间;4.基于所述最终特征空间训练分类器,并对测试集中的样本进行分类。本发明专利技术基于构建的转折词字典,实现了句子语义块的划分,能获得每段中的重要语义信息,同时考虑了句子的位置结构特征,从而能够提高文本情感分类的正确性。

Sentiment classification method based on semantic block partition mechanism of turning sentence

The invention discloses an emotion classification method based on semantic block partitioning mechanism of transitional sentences. The steps include: 1. Using a known word vector dictionary, each sample in training set and test set is represented as a word vector matrix; 2. Choosing an appropriate convolution check word vector matrix for convolution and extracting mapping feature vectors to realize it. Dimension reduction; 3. Construct a dictionary of turning words, and semantically partition the extracted mapping features by querying the position of turning words in the samples, extract the most important information in each partition block to form the final feature space; 4. train the classifier based on the final feature space, and classify the samples in the test set. Based on the constructed turn word dictionary, the invention realizes the division of sentence semantic blocks, obtains the important semantic information of each paragraph, and considers the position structure characteristics of the sentence, thereby improving the correctness of text emotion classification.

【技术实现步骤摘要】
一种基于转折句语义块划分机制的情感分类方法
本专利技术属于自然与语言处理领域的情感分类问题,尤其针对包含多种语义的情感表达方式,如欲抑先扬或欲扬先抑的转折句,进行有效的情感分类。
技术介绍
随着Internet的飞速发展,以网络为传播媒介的文本信息越来越受到企事业单位和个人的关注,网络信息可为政府部门了解民众意向,企业通过开辟产品评论了解用户对产品的意见以改进产品性能,消费者通过产品评论来指导消费行为。然而,网上每天都有大量的新评论出现,评论开始可能是积极肯定的态度但考虑到其他因素可能会转变为否定态度,即存在先抑后扬、先扬后抑或反复改变态度的现象。例如:社交网络(包括:国内的腾讯/新浪微博、人人网,国外的Facebook、Twitter等)每天都会产生大量的用户数据,而其中包含大量的人们就某事件发表个人观点的文本信息。例如:腾讯新闻上关于“小黄车死亡案”的一条评论:“出于人道主义精神的赔付是可以理解的,但是一味追着共享单车提供方是非常没有逻辑的。况且作为受害人,你本身也是有过错的,如果你不去违规使用共享单车,就不会出现现在的局面。”首先是对共享单车提供方应该给予赔偿持肯定态度,但后面又转折表达受害人自己也需要承担责任。例如:购物平台(包括:京东商城、苏宁易购、天猫等)每天都会产生海量的用户网购评论信息;例如:京东一条购买手机用户的评论:“声音太小,接电话挺费劲的,声音开到最大效果也不明显,不过上网速度很快,外形非常漂亮,整体好评”,先是表达缺点后面肯定陈述整理比较满意。现实生活中的这些评论信息除具有能表达情感极性的情感词外,又含有转折词使评论信息同时具有正/负两种情感,这一特点使得文本情感分类问题变得更加复杂,也使得传统的数据挖掘算法和已有的机器学习方法面临严峻的挑战:挑战之一:传统的基于情感字典的无监督分类方法,通过情感字典分析句子中词语的情感极性,并通过对这些词语极性的简单求和来决定句子整体的情感倾向,对词语的重要度不做区分,显然难以得到较好的效果;挑战之二:基于机器学习的文本情感倾向分析方法(包括:k-近邻、支持向量机SVM、Bayes等)存在以下几个主要问题:1)采用传统的词袋法进行表示,文本向量的维数较高且数据较为稀疏,不利用模型的训练;2)仅考虑特征间的句法结构而忽略其语义信息,造成特征映射结果上的语义不匹配,无法很好地表示文档的语义。挑战之三:现有的深度学习方法能学习句子特征,典型的神经网络结构如循环神经网络(RNN)和卷积神经网络(CNN),这两种模型都是用词向量表示特征空间,并利用语义合成的方法提取句子的特征,最后使用分类器对其情感极性分类。相对于RNN模型,CNN参数数量较少,且能更好地捕捉文本的语义特征,时间复杂度也远小于RNN。然而,传统的CNN网络用于情感分析时忽略了句子的结构特征,Max-pooling方法从句子的特征按照重要度中提取一个最大值,并不对句子的结构作任何区分。这一特点使得该方法在转折句的处理上效果不佳。
技术实现思路
为了解决所述三个挑战中所存在的问题,本专利技术提供一种基于转折句语义块划分机制的情感分类方法,以期基于构建的转折词字典,对特征映射空间进行分段实现句子语义块的划分,从而获得每段中的重要语义信息,同时考虑句子的位置结构特征,进而提高文本情感倾向分析的正确性。本专利技术为达到所述专利技术目的,采用如下技术方案:本专利技术一种基于转折句语义块划分机制的情感分类方法的特点是按如下步骤进行:步骤1:训练集和测试集中样本的词向量表示步骤1.1构建词向量字典D从网上获取外部语料并进行训练,得到词向量字典D,用于查询训练集和测试集中词语的词向量;词向量的维度设定为|V|;步骤1.2对训练集和测试集中样本进行词向量表示获取|I|条评论文本构成训练集DS={s1,s2,…si…s|I|}以及|I|条评论文本构成测试集DT={t1,t2,…,tj,…t|J|},其中si和tj分别表示所述训练集DS和测试集DT中的第i个训练样本和第j个测试样本,并有:表示所述训练集DS中第i个训练样本si中的第m个单词;表示所述测试集DT中第j个测试样本tj中的第n个单词;i=1,2,…,|I|,m=1,2,…,M,j=1,2,…,|J|,n=1,2,…,N;根据所述词向量字典D,查询所述训练集DS中第i个训练样本si中的第m个单词的词向量为得到所述训练集DS中第i个训练样本si的词向量矩阵为一个M×|V|的矩阵;同理得到所述测试集DT中第j个测试样本tj的词向量矩阵表示所述测试集DT中第j个测试样本tj中的第n个单词的词向量;步骤2:设置卷积核并进行卷积计算步骤2.1设置K种不同大小尺寸的卷积核集合,记为{W1,W2,…,Wk,…,WK}其中表示高为hk,宽为nk的第k种尺寸卷积核集合,表示hk×nk的矩阵;并有表示第k种尺寸卷积核集合中第g个卷积核,并进行随机初始化;步骤2.2以所述第g个卷积核为滑动窗口,利用式(1)对所述第g个卷积核和所述第g个卷积核覆盖下的第i个训练样本si的词向量矩阵Si的第τ到第τ+h-1之间的片段进行卷积操作,得到单一特征映射向量中第τ个值从而得到单一特征映射向量则由所述K种尺寸的卷积核与第i个训练样本si的词向量矩阵Si进行卷积操作,得到第i个训练样本si的词向量矩阵Si的特征映射向量式(1)中,表示当前滑动窗口覆盖下的第τ到第τ+h-1之间的向量矩阵,表示偏置向量,σ(·)为激活函数,表示1×(M-hk+1)的矩阵,1≤τ≤M-hk+1;步骤3:构建转折字典ZD,并在所述训练集DS中的第i个训练样本si中查找转折词,根据转折词所在位置将所述特征映射向量对进行分段,并在每个分段中提取最重要的一个特征,则若干个片段得到若干个特征;步骤3.1构建转折字典ZD,并根据所述转折词字典ZD,查找所述训练集DS中第i个训练样本si中是否含有转折词,如果含有所述转折字典ZD中第L个转折词zL,则给出所述第L个转折词zL在所述训练集DS中第i个训练样本si中的位置为步骤3.2根据所述第g个卷积核的尺寸得到所述转折词zL在所述第i个训练样本si的词向量矩阵Si的单一特征映射向量中的位置为并作为划分点;步骤3.3根据所述划分点将所述特征映射向量中的单一特征映射向量分为两段单一特征映射向量,即和步骤3.4利用最大池化方法对两段单一特征映射向量和进行处理,分别得到两段单一特征映射向量中的最大值和并组成第k种尺寸第g个卷积核的最大值对从而得到K×G个最大值对步骤3.5对所述K×G个最大值对进行拼接,由此得到所述第i个训练样本si最终特征表示空间步骤4:基于所述特征表示空间构建分类模型步骤4.1基于伯努利分布设置置零向量为r,且所述置零向量r与特征表示空间为同一维度的元素为0或为1的向量;步骤4.2利用式(2)对所述训练集DS构建softmax分类器O:式(2)中,f(·)为激活函数,Wo为权值参数,bo为另一个偏置向量;步骤4.3利用梯度下降方法对损失函数进行优化,从而对所述softmax分类器O(·)的训练,得到优化后的softmax分类器作为所述分类模型;步骤5利用所述分类模型O*(·)对所述测试集DT中第j个测试样本tj进行情感分类,得到不同情感类别的概率,并以最大概率所对应的情感本文档来自技高网
...

【技术保护点】
1.一种基于转折句语义块划分机制的情感分类方法,其特征是按如下步骤进行:步骤1:训练集和测试集中样本的词向量表示步骤1.1构建词向量字典D从网上获取外部语料并进行训练,得到词向量字典D,用于查询训练集和测试集中词语的词向量;词向量的维度设定为|V|;步骤1.2对训练集和测试集中样本进行词向量表示获取|I|条评论文本构成训练集DS={s1,s2,…si…s|I|}以及|I|条评论文本构成测试集DT={t1,t2,…,tj,…t|J|},其中si和tj分别表示所述训练集DS和测试集DT中的第i个训练样本和第j个测试样本,并有:

【技术特征摘要】
1.一种基于转折句语义块划分机制的情感分类方法,其特征是按如下步骤进行:步骤1:训练集和测试集中样本的词向量表示步骤1.1构建词向量字典D从网上获取外部语料并进行训练,得到词向量字典D,用于查询训练集和测试集中词语的词向量;词向量的维度设定为|V|;步骤1.2对训练集和测试集中样本进行词向量表示获取|I|条评论文本构成训练集DS={s1,s2,…si…s|I|}以及|I|条评论文本构成测试集DT={t1,t2,…,tj,…t|J|},其中si和tj分别表示所述训练集DS和测试集DT中的第i个训练样本和第j个测试样本,并有:表示所述训练集DS中第i个训练样本si中的第m个单词;表示所述测试集DT中第j个测试样本tj中的第n个单词;i=1,2,…,|I|,m=1,2,…,M,j=1,2,…,|J|,n=1,2,…,N;根据所述词向量字典D,查询所述训练集DS中第i个训练样本si中的第m个单词的词向量为得到所述训练集DS中第i个训练样本si的词向量矩阵为一个M×|V|的矩阵;同理得到所述测试集DT中第j个测试样本tj的词向量矩阵表示所述测试集DT中第j个测试样本tj中的第n个单词的词向量;步骤2:设置卷积核并进行卷积计算步骤2.1设置K种不同大小尺寸的卷积核集合,记为{W1,W2,…,Wk,…,WK}其中表示高为hk,宽为nk的第k种尺寸卷积核集合,表示hk×nk的矩阵;并有表示第k种尺寸卷积核集合中第g个卷积核,并进行随机初始化;步骤2.2以所述第g个卷积核为滑动窗口,利用式(1)对所述第g个卷积核和所述第g个卷积核覆盖下的第i个训练样本si的词向量矩阵Si的第τ到第τ+h-1之间的片段进行卷积操作,得到单一特征映射向量中第τ个值从而得到单一特征映射向量则由所述K种尺寸的卷积核与第i个训练样本si的词向量矩阵Si进行卷积操作,得到第i个训练样本si的词向量矩阵Si的特征映射向量式(1)中,表示当...

【专利技术属性】
技术研发人员:张玉红王勤勤李玉玲李培培胡学钢
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1