【技术实现步骤摘要】
情感词向量构建方法及系统
本专利技术涉及自然语言
,特别是一种情感词向量构建方法及系统。
技术介绍
所谓的文本情感分类一般是指针对新闻评论或商品评论文本的褒、贬二元情感分类,以及喜怒哀乐等的多元情感分类,其过程与文本分类过程相似,一般将情感分类看作是一种特殊的文本分类问题。在文本分析的研究中,词的表示方法是一项关键性的技术,所谓词的表示方法就是将文字转化成一种数学形式,以便模型去处理。词表示方法的好坏、表示形式所包含的词意信息将直接决定了分类结果的上限。当前主流的方法是使用词向量的表示方法(如word2vec/wordembdding),这种方法通过文本的上下文信息将每一个词表示成一个低维的稠密向量,相比传统的表示方法,向量中包含了更加丰富的语意信息,避免了语义鸿沟现象,因此在文本分析中被广泛应用。但是在情感分析的研究中,Word2vec表示方法也存在弊端。word2vec通过训练,从大规模语料中挖掘词语间潜在语义关联,但是缺少对词包含的情感信息的表达,这样就相当于在情感分类时并不是从情感信息的角度去完成情感倾向的判断,也因此制约了情感分类准确度的提高。专利 ...
【技术保护点】
1.一种情感词向量构建方法,其特征在于,包括:步骤S1:获取第一空间词向量模型、第二空间词向量模型以及第三空间词向量模型,其中,所述第一空间词向量模型是利用第一训练样本集得到,所述第二空间词向量模型是利用第二训练样本集得到,所述第三空间词向量模型是利用第三训练样本集得到,所述第一训练样本集由若干个被标注为正情感类型的语料文本构成,所述第二训练样本集由若干个被标注为负情感类型的语料文本构成,所述第三训练样本集由所述若干个被标注为正情感类型的语料文本以及所述若干个被标注为负情感类型的语料文本共同构成;步骤S2:获取正强情感词表以及负强情感词表;步骤S3:利用所述第一空间词向量模 ...
【技术特征摘要】
1.一种情感词向量构建方法,其特征在于,包括:步骤S1:获取第一空间词向量模型、第二空间词向量模型以及第三空间词向量模型,其中,所述第一空间词向量模型是利用第一训练样本集得到,所述第二空间词向量模型是利用第二训练样本集得到,所述第三空间词向量模型是利用第三训练样本集得到,所述第一训练样本集由若干个被标注为正情感类型的语料文本构成,所述第二训练样本集由若干个被标注为负情感类型的语料文本构成,所述第三训练样本集由所述若干个被标注为正情感类型的语料文本以及所述若干个被标注为负情感类型的语料文本共同构成;步骤S2:获取正强情感词表以及负强情感词表;步骤S3:利用所述第一空间词向量模型得到所述正强情感词表中每一个词对应的词向量v_p,利用所述第二空间词向量模型得到所述负强情感词表中每一个词对应的词向量v_n;步骤S4:利用所述正强情感词表中每一个词对应的词向量v_p以及所述负强情感词表中每一个词对应的词向量v_n训练逻辑回归模型;步骤S5:获取待处理词;步骤S6:根据所述待处理词在所述第一空间词向量模型的词向量、所述待处理词在所述第二空间词向量模型的词向量以及训练后的逻辑回归模型预测所述待处理词属于正类的概率P+和所述待处理词属于负类的概率P_;步骤S7:根据所述待处理词属于正类的概率P+和所述待处理词属于负类的概率P_以及所述待处理词在所述第三空间词向量模型的词向量生成所述待处理词的情感词向量。2.根据权利要求1所述的情感词向量构建方法,其特征在于,所述步骤S1包括:分别对所述第一训练样本集、所述第二训练样本集以及所述第三训练样本集中的语料文本进行预处理,得到文本词序列;利用所述第一训练样本集中的语料文本得到的文本词序列训练Word2vec模型,得到所述第一空间词向量模型,利用所述第二训练样本集中的语料文本得到的文本词序列训练Word2vec模型,得到所述第二空间词向量模型,以及利用所述第三训练样本集中的语料文本得到的文本词序列训练Word2vec模型,得到所述第三空间词向量模型。3.根据权利要求2所述的情感词向量构建方法,其特征在于,所述预处理包括对语料文本依次进行分词处理、去停用词处理。4.根据权利要求1所述的情感词向量构建方法,其特征在于,所述步骤S6包括:对所述待处理词在所述第一空间词向量模型的词向量、所述待处理词在所述第二空间词向量模型的词向量进行求和,得到所述待处理词的和空间的词向量;根据所述训练后的逻辑回归模型以及所述待处理词的和空间的词向量得到所述待处理词属于正类的概率P+和所述待处理词属于负类的概率P_。5.根据权利要求1所述的情感词向量构建方法,其特征在于,所述步骤S6包括:对所述待处理词在所述第一空间词向量模型的词向量、所述待处理词在所述第二空间词向量模型的词向量进行向量拼接处理,得到所述待处理词的拼接词向量;根据所述训练后的逻辑回归模型以及所述待处理词的拼接词向量得到所述待处理词属于正类的概率P+和所述待处理词属于负类的概率P_。6.根据权利要求1所述的情感词向量构建方法,其特征在于,所述步骤S7包括:采用以下方式计算所述待处理词的情感权重Ws:Ws=P+-P_;采用以下方式生成所述待处理词的情感词向量v_s:v_s=Ws*v_a;其中,v_a为所述待处理词在所述第三空间词向量模型的词向量。7.一种情感词向量构建系统,其特征在于,包括:第一获取模块,用于获取第一空间词向量模型、第二空间词向...
【专利技术属性】
技术研发人员:徐泓洋,聂颖,郑权,张峰,
申请(专利权)人:龙马智芯珠海横琴科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。