The invention discloses a construction of Tibetan language features Tibetan sentiment dictionary based method and system, the construction method includes: Chinese vocabulary ontology with emotion classification, and Tibetan dictionary, obtain Tibetan basic emotion dictionary; through the Word2vec tool of Tibetan corpus training micro-blog information collected in advance, get the data of the training vocabulary synonym set, as the expansion of the candidate word set; calculate each extended weight variance candidate words; according to the weight of the variance of the expansion of candidate words were screened for emotional expansion words. The invention of the construction method, obtain the Tibetan basic emotion Dictionary of Chinese vocabulary ontology and linguistic features of the Tibetan Tibetan Tibetan dictionary sentiment dictionary based on Word2vec tools through training and screening of Tibetan corpus micro-blog information, expand the basis of emotion in the Tibetan language dictionary based, to provide more emotional Tibetan vocabulary, which can accurately analyze the Tibetan micro-blog information to express the emotion.
【技术实现步骤摘要】
一种基于藏语语言特征的藏语情感词典的构建方法及系统
本专利技术涉及微博语言分析
,特别是涉及一种基于藏语语言特征的藏语情感词典的构建方法及系统。
技术介绍
目前,英文和中文的情感分析领域比较成熟,尤其英语情感处理领域,拥有非常全面的情感词典资源,其中比较著名的有普林斯顿大学的SentiWordNet、哈佛大学整理且开发了GeneralInquirer(GI)词典,这些词典是很多研究者通常选用的资源之一,在该词典中,不但每个词的义项都被列出,其情感属性也有相应的标注。中文中可使用的资源有董振东老师开发的《知网》(HowNet);张伟、刘缙等人编撰的《学生褒贬义词典》;史继林、朱英贵编撰《褒义词词典》;杨玲,朱英贵编撰的《贬义词词典》;哈尔滨工业大学信息检索实验室整理的《同义词词林扩展版》;清华大学整理共享的《中文褒贬义词典》;大连理工大学整理的《情感词汇本体》以及台湾大学整理的中文情感词典(NTUSD)。而藏语作为中国国内的一种重要语言,其语言处理发展缓慢,藏语的情感分析研究起步相对较晚,语料及情感资源匮乏,藏语缺乏语义词典,不易分析确定藏语语言表达的情感,从 ...
【技术保护点】
一种基于藏语语言特征的藏语情感词典的构建方法,其特征在于,所述构建方法包括:将带有情感分类的汉语词汇本体与汉藏词典进行匹配,获得藏语基础情感词典;通过Word2vec工具对预先收集的藏语微博信息进行语料训练,获得语料训练词汇的近义词集,作为扩充候选词集合;计算各个扩充候选词的权重方差;根据所述权重方差对所述扩充候选词进行筛选,获得情感扩充词,对藏语基础情感词典进行扩充,用于分析当前藏语微博信息表达的情感。
【技术特征摘要】
1.一种基于藏语语言特征的藏语情感词典的构建方法,其特征在于,所述构建方法包括:将带有情感分类的汉语词汇本体与汉藏词典进行匹配,获得藏语基础情感词典;通过Word2vec工具对预先收集的藏语微博信息进行语料训练,获得语料训练词汇的近义词集,作为扩充候选词集合;计算各个扩充候选词的权重方差;根据所述权重方差对所述扩充候选词进行筛选,获得情感扩充词,对藏语基础情感词典进行扩充,用于分析当前藏语微博信息表达的情感。2.根据权利要求1所述的基于藏语语言特征的藏语情感词典的构建方法,其特征在于,所述构建方法还包括:在进行匹配后,对匹配的结果进行校对,删除无关词汇。3.根据权利要求1所述的基于藏语语言特征的藏语情感词典的构建方法,其特征在于,语料训练词汇包括基本词、表情词、程度副词、否定词及连词中至少一者;其中,获得表情词的近义词集包括:从语料训练的结果中抽取表情词;统计抽取的各个表情词的出现频率;根据所述出现频率以及各个表情词表示的情感对各个抽取的表情词进行筛选,将筛选后的表情种子集合添加到扩充候选词集合中。4.根据权利要求1所述的基于藏语语言特征的藏语情感词典的构建方法,其特征在于,所述计算各个扩充候选词的权重方差具体包括:设藏语微博信息形成的文档集合为D,情感类别为K,k∈K,D={D1,D2,...,DK},Dk表示第k类情感的文档集合;文档总数为N,N=N1+N2+...+Nk,Nk表示第k类情感的文本数量;扩充候选词集合W={w1,w2,...,wn};计算扩充候选词wi在文档集合Dk中出现的比例TFik:其中,i=1,2,...,n,Nik表示扩充候选词wi在文档集合Dk中出现的次数;计算扩充候选词wi的反文档频率IDFi:其中,Ni表示第i类情感的文本数量;根据比例TFik和反文档频率IDFi,计算扩充候选词wi在对应情感类别中的权重值TFIDFik:TFIDFik=TFik×IDFi----------(3);计算扩充候选词wi在各个情感类别中权重的平均值根据权重值TFIDFik及权重的平均值确定扩充候选词wi的权重方差D(TFIDF(wi)):5.根据权利要求1-4中任一项所述的基于藏语语言特征的藏语情感词典的构建方法,其特征在于,根据所述权重方差对所述扩充候选词进行筛选具体包括:将各个扩充候选词的权重方差按照从大到小的顺序排序;选取设定数量的权重方差对应的扩充候选词添加到藏语基础情感词典中。6.一种基于藏语语言特征的藏语情感词典的构建系统,其特征在于,所述构建系统包括:匹配单元,用于将带有情感分类...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。