一种基于转折句语义块划分机制的情感分类方法技术

技术编号：18658208 阅读：29 留言：0更新日期：2018-08-11 14:31

本发明专利技术公开了一种基于转折句语义块划分机制的情感分类方法，其步骤包括：1.利用已知的词向量字典，把训练集和测试集中的每条样本表示为词向量矩阵；2.选取合适的卷积核对词向量矩阵进行卷积，提取映射特征向量以实现降维；3.构建转折词字典，并通过查询转折词在样本中的位置，对提取的映射特征进行语义划分，提取每个划分块中的最重要信息，形成最终特征空间；4.基于所述最终特征空间训练分类器，并对测试集中的样本进行分类。本发明专利技术基于构建的转折词字典，实现了句子语义块的划分，能获得每段中的重要语义信息，同时考虑了句子的位置结构特征，从而能够提高文本情感分类的正确性。

Sentiment classification method based on semantic block partition mechanism of turning sentence

The invention discloses an emotion classification method based on semantic block partitioning mechanism of transitional sentences. The steps include: 1. Using a known word vector dictionary, each sample in training set and test set is represented as a word vector matrix; 2. Choosing an appropriate convolution check word vector matrix for convolution and extracting mapping feature vectors to realize it. Dimension reduction; 3. Construct a dictionary of turning words, and semantically partition the extracted mapping features by querying the position of turning words in the samples, extract the most important information in each partition block to form the final feature space; 4. train the classifier based on the final feature space, and classify the samples in the test set. Based on the constructed turn word dictionary, the invention realizes the division of sentence semantic blocks, obtains the important semantic information of each paragraph, and considers the position structure characteristics of the sentence, thereby improving the correctness of text emotion classification.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于转折句语义块划分机制的情感分类方法
本专利技术属于自然与语言处理领域的情感分类问题，尤其针对包含多种语义的情感表达方式，如欲抑先扬或欲扬先抑的转折句，进行有效的情感分类。
技术介绍
随着Internet的飞速发展，以网络为传播媒介的文本信息越来越受到企事业单位和个人的关注，网络信息可为政府部门了解民众意向，企业通过开辟产品评论了解用户对产品的意见以改进产品性能，消费者通过产品评论来指导消费行为。然而，网上每天都有大量的新评论出现，评论开始可能是积极肯定的态度但考虑到其他因素可能会转变为否定态度，即存在先抑后扬、先扬后抑或反复改变态度的现象。例如：社交网络(包括：国内的腾讯/新浪微博、人人网，国外的Facebook、Twitter等)每天都会产生大量的用户数据，而其中包含大量的人们就某事件发表个人观点的文本信息。例如：腾讯新闻上关于“小黄车死亡案”的一条评论：“出于人道主义精神的赔付是可以理解的，但是一味追着共享单车提供方是非常没有逻辑的。况且作为受害人，你本身也是有过错的，如果你不去违规使用共享单车，就不会出现现在的局面。”首先是对共享单车提供方应该给予赔偿持肯定态度，但后面又转折表达受害人自己也需要承担责任。例如：购物平台(包括:京东商城、苏宁易购、天猫等)每天都会产生海量的用户网购评论信息；例如：京东一条购买手机用户的评论：“声音太小，接电话挺费劲的，声音开到最大效果也不明显，不过上网速度很快，外形非常漂亮，整体好评”，先是表达缺点后面肯定陈述整理比较满意。现实生活中的这些评论信息除具有能表达情感极性的情感词外，又含有转折词使评论信息同时具有正...

【技术保护点】
1.一种基于转折句语义块划分机制的情感分类方法，其特征是按如下步骤进行：步骤1：训练集和测试集中样本的词向量表示步骤1.1构建词向量字典D从网上获取外部语料并进行训练，得到词向量字典D，用于查询训练集和测试集中词语的词向量；词向量的维度设定为|V|；步骤1.2对训练集和测试集中样本进行词向量表示获取|I|条评论文本构成训练集DS＝{s1,s2,…si…s|I|}以及|I|条评论文本构成测试集DT＝{t1,t2,…,tj,…t|J|}，其中si和tj分别表示所述训练集DS和测试集DT中的第i个训练样本和第j个测试样本，并有：

【技术特征摘要】
1.一种基于转折句语义块划分机制的情感分类方法，其特征是按如下步骤进行：步骤1：训练集和测试集中样本的词向量表示步骤1.1构建词向量字典D从网上获取外部语料并进行训练，得到词向量字典D，用于查询训练集和测试集中词语的词向量；词向量的维度设定为|V|；步骤1.2对训练集和测试集中样本进行词向量表示获取|I|条评论文本构成训练集DS＝{s1,s2,…si…s|I|}以及|I|条评论文本构成测试集DT＝{t1,t2,…,tj,…t|J|}，其中si和tj分别表示所述训练集DS和测试集DT中的第i个训练样本和第j个测试样本，并有：表示所述训练集DS中第i个训练样本si中的第m个单词；表示所述测试集DT中第j个测试样本tj中的第n个单词；i＝1,2,…,|I|，m＝1,2,…,M，j＝1,2,…,|J|，n＝1,2,…,N；根据所述词向量字典D，查询所述训练集DS中第i个训练样本si中的第m个单词的词向量为得到所述训练集DS中第i个训练样本si的词向量矩阵为一个M×|V|的矩阵；同理得到所述测试集DT中第j个测试样本tj的词向量矩阵表示所述测试集DT中第j个测试样本tj中的第n个单词的词向量；步骤2：设置卷积核并进行卷积计算步骤2.1设置K种不同大小尺寸的卷积核集合，记为{W1,W2,…,Wk,…,WK}其中表示高为hk，宽为nk的第k种尺寸卷积核集合，表示hk×nk的矩阵；并有表示第k种尺寸卷积核集合中第g个卷积核，并进行随机初始化；步骤2.2以所述第g个卷积核为滑动窗口，利用式(1)对所述第g个卷积核和所述第g个卷积核覆盖下的第i个训练样本si的词向量矩阵Si的第τ到第τ+h-1之间的片段进行卷积操作，得到单一特征映射向量中第τ个值从而得到单一特征映射向量则由所述K种尺寸的卷积核与第i个训练样本si的词向量矩阵Si进行卷积操作，得到第i个训练样本si的词向量矩阵Si的特征映射向量式(1)中，表示当...

【专利技术属性】
技术研发人员：张玉红，王勤勤，李玉玲，李培培，胡学钢，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人