一种词语分析方法及装置制造方法及图纸

技术编号:16547391 阅读:141 留言:0更新日期:2017-11-11 12:03
本发明专利技术提供一种词语分析方法及装置,涉及信息处理技术,能够提高词语分析结果的准确性。本发明专利技术的方法包括:获取训练好的支持向量机分类器,其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。本发明专利技术主要用于情感字典的扩充。

Method and device for word analysis

The invention provides a word analysis method and a device, which relates to the information processing technology, and can improve the accuracy of the analysis result of words. The method of the invention includes obtaining the support vector machine classifier trained the SVM classifier trained the first word vector and seed by seed emotional words corresponding non emotional words corresponding to the second word vector obtained from the training; the first term vector through the analysis of the seed of emotion the word in the sentence, the second word vector by non emotional words in the sentence are obtained through analysis of the seed; acquiring new identifying emotional words, and through to the new recognition of emotional words in the sentence to be analyzed to obtain the third word vector corresponding to the new recognition of emotional words with polarity; the trained support vector machine classifier and the third word vector determines the new recognition to emotional words. The invention is mainly used for the expansion of the emotion dictionary.

【技术实现步骤摘要】
一种词语分析方法及装置
本专利技术涉及信息处理技术,尤其涉及一种词语分析方法及装置。
技术介绍
随着互联网和社交媒体的迅速发展,互联网和社交媒体上每天都会有很多的新词出现。所谓新词指的是还未被收集到现有的词典中的词语。其中,有些新词被用来表达网络用户对某一事物的观点和态度,在此将其称为新的情感词。无论是已有的情感词还是新的情感词都是具有极性的。根据表达的情感不同,情感词可分为表达正面情感的情感词和表达负面情感的情感词。现有技术中提供了一种词语分析方法。在该方法中,主要是利用了候选词和种子情感词之间的相似性来判断该候选词是否是情感词。但是,在实际应用中,即使是相同的情感词在不同的上下文中也可能表示不同的情感。因此,仅通过两个词之间相似性分析而获得的对候选词的分析结果是不准确的。
技术实现思路
有鉴于此,本专利技术提供一种词语分析方法及装置,能够提高词语分析结果的准确性。为解决上述技术问题,本专利技术提供一种词语分析方法,包括:获取训练好的支持向量机分类器;其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;且所述种子情感词和种子非情感词都存在于现有词典中;获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。其中,所述获取训练好的支持向量机分类器,包括:获取所述种子情感词,并通过对所述种子情感词所在句子进行分析获得所述种子情感词对应的第一词向量;获取所述种子非情感词,并通过对所述种子非情感词所在句子进行分析获得所述种子非情感词对应的第二词向量;利用所述第一词向量、所述第二词向量训练支持向量机分类器,获取所述训练好的支持向量机分类器。其中,所述获取所述种子情感词,并通过对所述种子情感词所在句子进行分析获得所述种子情感词对应的第一词向量,包括:对第一预设文档进行分析,获取所述第一预设文档中的情感词,并从所述情感词中选择种子情感词;获取所述种子情感词所在句子,并获取所述种子情感词所在句子的依存句法结构;根据所述依存句法结构,选择与所述种子情感词的距离符合第一预设距离条件且与所述种子情感词具有直接依存关系的第一候选词语;根据所述第一候选词语和所述种子情感词获得所述第一词向量。其中,所述获取所述种子非情感词,并通过对所述种子非情感词所在句子进行分析获得所述种子非情感词对应的第二词向量,包括:对第一预设文档进行分析,获取所述第一预设文档中的非情感词,并从所述非情感词中选择种子非情感词;获取所述种子非情感词所在句子,并获取所述种子非情感词所在句子的依存句法结构;根据所述依存句法结构,选择与所述种子非情感词的距离符合第二预设距离条件且与所述种子非情感词具有直接依存关系的第二候选词语;根据所述第二候选词语和所述种子非情感词获得所述第二词向量。其中,所述获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量,包括:对第二预设文档进行分析,获取所述第二预设文档中的新词,其中所述新词未存在于所述现有词典中;从所述新词中获取新的待识别情感词以及所述新的待识别情感词所在句子;获取所述新的待识别情感词所在句子的依存句法结构,并根据所述依存句法结构选择与所述新的待识别情感词的距离符合第三预设距离条件且与所述新的待识别情感词具有直接依存关系的第三候选词语;根据所述第三候选词语和所述新的待识别情感词获得所述第三词向量。其中,所述利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性,包括:将所述第三词向量输入到所述训练好的支持向量机分类器;根据所述训练好的支持向量机分类器的输出确定所述新的待识别情感词的极性。第二方面,本专利技术提供一种词语分析装置,包括:第一获取模块,用于获取训练好的支持向量机分类器;其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;且所述种子情感词和种子非情感词都存在于现有词典中;第二获取模块,用于获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;分析模块,用于利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。其中,所述第一获取模块包括:第一获取子模块,用于获取所述种子情感词,并通过对所述种子情感词所在句子进行分析获得所述种子情感词对应的第一词向量;第二获取子模块,用于获取所述种子非情感词,并通过对所述种子非情感词所在句子进行分析获得所述种子非情感词对应的第二词向量;第三获取子模块,用于利用所述第一词向量、所述第二词向量训练支持向量机分类器,获取训练好的支持向量机分类器。其中,所述第一获取子模块包括:第一获取单元,用于对第一预设文档进行分析,获取所述第一预设文档中的情感词;第一选择单元,用于从所述情感词中选择种子情感词;第二获取单元,用于获取所述种子情感词所在句子,并获取所述种子情感词所在句子的依存句法结构;第二选择单元,用于根据所述依存句法结构,选择与所述种子情感词的距离符合第一预设距离条件且与所述种子情感词具有直接依存关系的第一候选词语;第一词向量获取单元,用于根据所述第一候选词语和所述种子情感词获得所述第一词向量。其中,所述第二获取子模块包括:第三获取单元,用于对第一预设文档进行分析,获取所述第一预设文档中的非情感词;第三选择单元,用于从所述非情感词中选择种子非情感词;第四获取单元,用于获取所述种子非情感词所在句子,并获取所述种子非情感词所在句子的依存句法结构;第四选择单元,用于根据所述依存句法结构,选择与所述种子非情感词的距离符合第二预设距离条件且与所述种子非情感词具有直接依存关系的第二候选词语;第二词向量获取单元,用于根据所述第二候选词语和所述种子非情感词获得所述第二词向量。其中,所述第二获取模块包括:第五获取子模块,用于对第二预设文档进行分析,获取所述第二预设文档中的新词,其中所述新词未存在于现有词典中;第六获取子模块,用于从所述新词中获取新的待识别情感词以及所述新的待识别情感词所在句子;第七获取子模块,用于获取所述新的待识别情感词所在句子的依存句法结构,并根据所述依存句法结构选择与所述新的待识别情感词的距离符合第三预设距离条件且与所述新的待识别情感词具有直接依存关系的第三候选词语;第三词向量获取子模块,用于根据所述第三候选词语和所述新的待识别情感词获得所述第三词向量。其中,所述分析模块包括:输入子模块,用于将所述第三词向量输入到所述训练好的支持向量机分类器;分析子模块,用于根据所述训练好的支持向量机分类器的输出确定所述新的待识别情感词的极性。本专利技术的上述技术方案的有益效果如下:在本专利技术实施例中,利用现有词典中的种子情感词和种子非情感词对应的第一词向量和第二词向量,训练本文档来自技高网...
一种词语分析方法及装置

【技术保护点】
一种词语分析方法,其特征在于,包括:获取训练好的支持向量机分类器;其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;且所述种子情感词和种子非情感词都存在于现有词典中;获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。

【技术特征摘要】
1.一种词语分析方法,其特征在于,包括:获取训练好的支持向量机分类器;其中,所述训练好的支持向量机分类器是利用种子情感词对应的第一词向量和种子非情感词对应的第二词向量训练得到的;所述第一词向量通过对所述种子情感词所在句子进行分析获得,所述第二词向量通过对所述种子非情感词所在句子进行分析获得;且所述种子情感词和种子非情感词都存在于现有词典中;获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量;利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性。2.根据权利要求1所述的方法,其特征在于,所述获取训练好的支持向量机分类器,包括:获取所述种子情感词,并通过对所述种子情感词所在句子进行分析获得所述种子情感词对应的第一词向量;获取所述种子非情感词,并通过对所述种子非情感词所在句子进行分析获得所述种子非情感词对应的第二词向量;利用所述第一词向量、所述第二词向量训练支持向量机分类器,获取所述训练好的支持向量机分类器。3.根据权利要求2所述的方法,其特征在于,所述获取所述种子情感词,并通过对所述种子情感词所在句子进行分析获得所述种子情感词对应的第一词向量,包括:对第一预设文档进行分析,获取所述第一预设文档中的情感词,并从所述情感词中选择种子情感词;获取所述种子情感词所在句子,并获取所述种子情感词所在句子的依存句法结构;根据所述依存句法结构,选择与所述种子情感词的距离符合第一预设距离条件且与所述种子情感词具有直接依存关系的第一候选词语;根据所述第一候选词语和所述种子情感词获得所述第一词向量。4.根据权利要求2所述的方法,其特征在于,所述获取所述种子非情感词,并通过对所述种子非情感词所在句子进行分析获得所述种子非情感词对应的第二词向量,包括:对第一预设文档进行分析,获取所述第一预设文档中的非情感词,并从所述非情感词中选择种子非情感词;获取所述种子非情感词所在句子,并获取所述种子非情感词所在句子的依存句法结构;根据所述依存句法结构,选择与所述种子非情感词的距离符合第二预设距离条件且与所述种子非情感词具有直接依存关系的第二候选词语;根据所述第二候选词语和所述种子非情感词获得所述第二词向量。5.根据权利要求1所述的方法,其特征在于,所述获取新的待识别情感词,并通过对所述新的待识别情感词所在句子进行分析获得所述新的待识别情感词对应的第三词向量,包括:对第二预设文档进行分析,获取所述第二预设文档中的新词,其中所述新词未存在于所述现有词典中;从所述新词中获取新的待识别情感词以及所述新的待识别情感词所在句子;获取所述新的待识别情感词所在句子的依存句法结构,并根据所述依存句法结构选择与所述新的待识别情感词的距离符合第三预设距离条件且与所述新的待识别情感词具有直接依存关系的第三候选词语;根据所述第三候选词语和所述新的待识别情感词获得所述第三词向量。6.根据权利要求1所述的方法,其特征在于,所述利用所述训练好的支持向量机分类器和所述第三词向量确定所述新的待识别情感词的极性,包括:将所述第三词向量输入到所述训练好的支持向量机分类器;根据所述训练好的支持向量机分类器的输出确定所述新的待识别情感词的极性。7.一种词语分析装置,其特征在于,...

【专利技术属性】
技术研发人员:白瑞峰郑继川董滨姜珊珊
申请(专利权)人:株式会社理光
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1