构建情感词典的方法及装置制造方法及图纸

技术编号:15690868 阅读:88 留言:0更新日期:2017-06-24 03:36
本发明专利技术公开了一种构建情感词典的方法及装置,属于信息技术领域。该方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对情感特征词的至少两个标注结果,至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件;如果情感特征词满足预设条件,将情感特征词加入到情感词典中。本发明专利技术不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。

Method and device for constructing emotional dictionary

The invention discloses a method and a device for constructing an emotional dictionary, belonging to the field of information technology. The method comprises: acquiring a plurality of input data from every modeling; modeling data in identifying, acquiring at least one emotion feature words; for any emotional feature words, acquiring at least two words of emotion annotation results at least two annotation results published by mark and a plurality of receivers, each labeled the result corresponds to a classification of emotion labels; at least according to the emotional characteristics of two word annotation results, to determine whether the emotional characteristics of words satisfying the preset conditions; if the emotional characteristics of words satisfying the preset conditions, adding emotional feature words to the dictionary in emotion. The invention does not rely on the professional labeling of personnel, and based on the published multi recipient of emotional feature label, solves the problem of inaccurate and incomplete labeling of emotional feature words, improve the accuracy of sentiment dictionary.

【技术实现步骤摘要】
构建情感词典的方法及装置
本专利技术涉及信息
,特别涉及一种构建情感词典的方法及装置。
技术介绍
随着信息技术的发展,终端普及率的提高,越来越多用户借助终端中安装的微博、微信等社交应用来表达自己的意见、观点、态度。例如,对政治人物、娱乐人物、热点人物的个人喜好;对某类产品的用后评价与建议;对社会政治事件的看法、立场;对自己的心情、感受的宣泄等。通常用于表达自己的意见、观点、态度的词语往往具有一定的情感倾向,基于这些词语所构建的情感词典,具有十分重要的意义,可用于个人形象的维护、企业营销管理及品牌宣传、商家对产品的改进、政府对舆情控制等方面。目前,构建情感词典的方法为:专业标注人员对从社交应用中获取到的海量语料进行筛选,选取情感特征词,为情感特征词标注相应的分类情感标签,得到包括情感特征词及对应分类情感标签的情感词典。然而,随着网络语言的不断发展,各种新词语层出不穷,加上各种网络符号也常被用来表达用户情感,单纯依赖专业标注人员很难全面地、准确地对社交应用中的情感特征词进行标注,使得构建情感词典准确性较低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种构建情感词典的方法及装置。所述技术方案如下:一方面,提供了一种构建情感词典的方法,所述方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中。可选地,所述从每个待识别的建模语料中,获取至少一个情感特征词,包括:采用指定分词算法将每个待识别的建模语料切分为多个语素片;对所述多个语素片进行过滤,得到至少一个情感特征词。可选地,所述对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,包括:将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。可选地,所述根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件,包括:对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;判断所述总标记数是否大于第一阈值;如果所述总标记数大于所述第一阈值,则根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;获取每种分类结果在所述总标记数中所占的比值;从每种分类结果在对所述总标记数中所占的比值中,获取最大比值;判断所述最大比值是否大于第二阈值;如果所述最大比值大于所述第二阈值,则确定所述情感特征词满足预设条件。可选地,所述如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中,包括:将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。可选地,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、羞子标签;所述恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;所述惊标签包括惊奇子标签。另一方面,提供了一种构建情感词典的装置,所述装置包括:第一获取模块,用于获取多个待识别的建模语料;第二获取模块,用于从每个待识别的建模语料中,获取至少一个情感特征词;第三获取模块,用于对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;判断模块,用于根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;加入模块,用于当所述情感特征词满足所述预设条件时,将所述情感特征词加入到情感词典中。可选地,所述第二获取模块,用于采用指定分词算法将每个待识别的建模语料切分为多个语素片;对所述多个语素片进行过滤,得到至少一个情感特征词。可选地,所述第三获取模块,用于将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感词标签;将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。可选地,所述判断模块,用于对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;判断所述总标记数是否大于第一阈值;当所述总标记数大于所述第一阈值时,根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;获取每种分类结果在所述总标记数中所占的比值;从每种分类结果在所述总标记数中所占的比值中,获取最大比值;判断所述最大比值是否大于第二阈值;当所述最大比值大于所述第二阈值时,确定所述情感特征词满足预设条件。可选地,所述加入模块,用于将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。可选地,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、羞子标签;所述恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;所述惊标签包括惊奇子标签。本专利技术实施例提供的技术方案带来的有益效果是:不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种构建情感词典的方法流程图;图本文档来自技高网...
构建情感词典的方法及装置

【技术保护点】
一种构建情感词典的方法,其特征在于,所述方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中。

【技术特征摘要】
1.一种构建情感词典的方法,其特征在于,所述方法包括:获取多个待识别的建模语料;从每个待识别的建模语料中,获取至少一个情感特征词;对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中。2.根据权利要求1所述的方法,其特征在于,所述从每个待识别的建模语料中,获取至少一个情感特征词,包括:采用指定分词算法将每个待识别的建模语料切分为多个语素片;对所述多个语素片进行过滤,得到至少一个情感特征词。3.根据权利要求1所述的方法,其特征在于,所述对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,包括:将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。4.根据权利要求1所述的方法,其特征在于,所述根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件,包括:对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;判断所述总标记数是否大于第一阈值;如果所述总标记数大于所述第一阈值,则根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;获取每种分类结果在所述总标记数中所占的比值;从每种分类结果在所述总标记数中所占的比值中,获取最大比值;判断所述最大比值是否大于第二阈值;如果所述最大比值大于所述第二阈值,则确定所述情感特征词满足预设条件。5.根据权利要求4所述的方法,其特征在于,所述如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中,包括:将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。6.根据权利要求3所述的方法,其特征在于,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、...

【专利技术属性】
技术研发人员:郭向前
申请(专利权)人:北京新媒传信科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1