The invention provides a word analysis method and a device, which relates to the information processing technology, and can improve the accuracy of the analysis result of words. The method of the invention includes obtaining the support vector machine classifier trained the SVM classifier trained the first word vector and seed by seed emotional words corresponding non emotional words corresponding to the second word vector obtained from the training; the first term vector through the analysis of the seed of emotion the word in the sentence, the second word vector by non emotional words in the sentence are obtained through analysis of the seed; acquiring new identifying emotional words, and through to the new recognition of emotional words in the sentence to be analyzed to obtain the third word vector corresponding to the new recognition of emotional words with polarity; the trained support vector machine classifier and the third word vector determines the new recognition to emotional words. The invention is mainly used for the expansion of the emotion dictionary.
【技术实现步骤摘要】
一种词语分析方法及装置
本专利技术涉及信息处理技术,尤其涉及一种词语分析方法及装置。
技术介绍
随着互联网和社交媒体的迅速发展,互联网和社交媒体上每天都会有很多的新词出现。所谓新词指的是还未被收集到现有的词典中的词语。其中,有些新词被用来表达网络用户对某一事物的观点和态度,在此将其称为新的情感词。无论是已有的情感词还是新的情感词都是具有极性的。根据表达的情感不同,情感词可分为表达正面情感的情感词和表达负面情感的情感词。现有技术中提供了一种词语分析方法。在该方法中,主要是利用了候选词和种子情感词之间的相似性来判断该候选词是否是情感词。但是,在实际应用中,即使是相同的情感词在不同的上下文中也可能表示不同的情感。因此,仅通过两个词之间相似性分析而获得的对候选词的分析结果是不准确的。
技术实现思路
有鉴于此,本专利技术提供一种词语分析方法及装置,能够提高词语分析结果的准确性。为解决上述技术问题,本专利技术提供一种词语分析方法,包括:获取训练好的支持向量机分类器;其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;且所述种子情感词和种子非情感词都存在于现有词典中;获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。其中,所述获取训练好的支持向量机分类器,包括:获取所述种 ...
【技术保护点】
一种词语分析方法,其特征在于,包括:获取训练好的支持向量机分类器;其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;且所述种子情感词和种子非情感词都存在于现有词典中;获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。
【技术特征摘要】
1.一种词语分析方法,其特征在于,包括:获取训练好的支持向量机分类器;其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;且所述种子情感词和种子非情感词都存在于现有词典中;获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。2.根据权利要求1所述的方法,其特征在于,所述获取训练好的支持向量机分类器,包括:获取所述种子情感词,并通过对所述种子情感词所在句子进行分析获得所述种子情感词对应的第一词向量;获取所述种子非情感词,并通过对所述种子非情感词所在句子进行分析获得所述种子非情感词对应的第二词向量;利用所述第一词向量、所述第二词向量训练支持向量机分类器,获取所述训练好的支持向量机分类器。3.根据权利要求2所述的方法,其特征在于,所述获取所述种子情感词,并通过对所述种子情感词所在句子进行分析获得所述种子情感词对应的第一词向量,包括:对第一预设文档进行分析,获取所述第一预设文档中的情感词,并从所述情感词中选择种子情感词;获取所述种子情感词所在句子,并获取所述种子情感词所在句子的依存句法结构;根据所述依存句法结构,选择与所述种子情感词的距离符合第一预设距离条件且与所述种子情感词具有直接依存关系的第一候选词语;根据所述第一候选词语和所述种子情感词获得所述第一词向量。4.根据权利要求2所述的方法,其特征在于,所述获取所述种子非情感词,并通过对所述种子非情感词所在句子进行分析获得所述种子非情感词对应的第二词向量,包括:对第一预设文档进行分析,获取所述第一预设文档中的非情感词,并从所述非情感词中选择种子非情感词;获取所述种子非情感词所在句子,并获取所述种子非情感词所在句子的依存句法结构;根据所述依存句法结构,选择与所述种子非情感词的距离符合第二预设距离条件且与所述种子非情感词具有直接依存关系的第二候选词语;根据所述第二候选词语和所述种子非情感词获得所述第二词向量。5.根据权利要求1所述的方法,其特征在于,所述获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量,包括:对第二预设文档进行分析,获取所述第二预设文档中的新词,其中所述新词未存在于所述现有词典中;从所述新词中获取新的待识别情感词以及所述新的待识别情感词所在句子;获取所述新的待识别情感词所在句子的依存句法结构,并根据所述依存句法结构选择与所述新的待识别情感词的距离符合第三预设距离条件且与所述新的待识别情感词具有直接依存关系的第三候选词语;根据所述第三候选词语和所述新的待识别情感词获得所述第三词向量。6.根据权利要求1所述的方法,其特征在于,所述利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性,包括:将所述第三词向量输入到所述训练好的支持向量机分类器;根据所述训练好的支持向量机分类器的输出确定所述新的待识别情感词的极性。7.一种词语分析装置,其特征在于,...
【专利技术属性】
技术研发人员:白瑞峰,郑继川,董滨,姜珊珊,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。