The invention discloses a method and a device for constructing an emotional dictionary, belonging to the field of information technology. The method comprises: acquiring a plurality of input data from every modeling; modeling data in identifying, acquiring at least one emotion feature words; for any emotional feature words, acquiring at least two words of emotion annotation results at least two annotation results published by mark and a plurality of receivers, each labeled the result corresponds to a classification of emotion labels; at least according to the emotional characteristics of two word annotation results, to determine whether the emotional characteristics of words satisfying the preset conditions; if the emotional characteristics of words satisfying the preset conditions, adding emotional feature words to the dictionary in emotion. The invention does not rely on the professional labeling of personnel, and based on the published multi recipient of emotional feature label, solves the problem of inaccurate and incomplete labeling of emotional feature words, improve the accuracy of sentiment dictionary.
【技术实现步骤摘要】
构建情感词典的方法及装置
本专利技术涉及信息
,特别涉及一种构建情感词典的方法及装置。
技术介绍
随着信息技术的发展,终端普及率的提高,越来越多用户借助终端中安装的微博、微信等社交应用来表达自己的意见、观点、态度。例如,对政治人物、娱乐人物、热点人物的个人喜好;对某类产品的用后评价与建议;对社会政治事件的看法、立场;对自己的心情、感受的宣泄等。通常用于表达自己的意见、观点、态度的词语往往具有一定的情感倾向,基于这些词语所构建的情感词典,具有十分重要的意义,可用于个人形象的维护、企业营销管理及品牌宣传、商家对产品的改进、政府对舆情控制等方面。目前,构建情感词典的方法为:专业标注人员对从社交应用中获取到的海量语料进行筛选,选取情感特征词,为情感特征词标注相应的分类情感标签,得到包括情感特征词及对应分类情感标签的情感词典。然而,随着网络语言的不断发展,各种新词语层出不穷,加上各种网络符号也常被用来表达用户情感,单纯依赖专业标注人员很难全面地、准确地对社交应用中的情感特征词进行标注,使得构建情感词典准确性较低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种构建情感词典的方法及装置。所述技术方案如下:一方面,提供了一种构建情感词典的方法,所述方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;如果所 ...
【技术保护点】
一种构建情感词典的方法,其特征在于,所述方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中。
【技术特征摘要】
1.一种构建情感词典的方法,其特征在于,所述方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中。2.根据权利要求1所述的方法,其特征在于,所述从每个待识别的建模语料中,获取至少一个情感特征词,包括:采用指定分词算法将每个待识别的建模语料切分为多个语素片;对所述多个语素片进行过滤,得到至少一个情感特征词。3.根据权利要求1所述的方法,其特征在于,所述对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,包括:将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。4.根据权利要求1所述的方法,其特征在于,所述根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件,包括:对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;判断所述总标记数是否大于第一阈值;如果所述总标记数大于所述第一阈值,则根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;获取每种分类结果在所述总标记数中所占的比值;从每种分类结果在所述总标记数中所占的比值中,获取最大比值;判断所述最大比值是否大于第二阈值;如果所述最大比值大于所述第二阈值,则确定所述情感特征词满足预设条件。5.根据权利要求4所述的方法,其特征在于,所述如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中,包括:将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。6.根据权利要求3所述的方法,其特征在于,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、...
【专利技术属性】
技术研发人员:郭向前,
申请(专利权)人:北京新媒传信科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。