情感标注的方法及其系统技术方案

技术编号:18302090 阅读:31 留言:0更新日期:2018-06-28 12:00
本发明专利技术涉及一种情感标注的方法及其系统,该方法包括:接收待标注文本;采用预先训练好的至少一个训练模型对待标注文本进行情感分析,确定待标注文本的情感标签;为所述待标注文本标注情感标签。采用本发明专利技术实施例提供的情感标注方法,结合情感词提取和将情感词转换为词特征向量进行模型训练,并对待识别文本进行情感标注,优化了情感表达能力,同时,提高了训练模型对情感分析的准确度。

The method and system of emotional annotation

The invention relates to an emotional annotation method and its system, which includes receiving the text to be annotated, using at least one training model in advance to treat the annotation text for emotional analysis, determining the emotional label for the text to be annotated, and labeling the emotional label for the text to be annotated. The emotion annotation method, which is provided by the embodiment of the invention, is used to extract and transform the emotion words into the word feature vectors to train the model. The emotion annotation is used in the recognition text, and the emotion expression ability is optimized. At the same time, the accuracy of the emotion analysis is improved by the training model.

【技术实现步骤摘要】
情感标注的方法及其系统
本专利技术设计数据分析
,尤其涉及一种情感标注的方法及其系统。
技术介绍
歌词情感分类通常是使用词语和词频作为特征向量,然后使用向量特征模型等常用的机器学习进行分析。但通常使用的歌曲情感分类方法使用的词语和词频作为特征向量的粒度比较粗,或者说精度不够高,容易忽略一些隐含的联系,例如歌曲中的“我不快乐”,采用粗粒度的词向量,可能提取到的词为“快乐”,造成表达错误,或情感表达弱化的现象,以至于情感分类的准确率降低。
技术实现思路
本专利技术提供了一种情感标注的方法及其系统,结合情感词提取和word2wec的词特征向量的构建方法,优化了特征向量的表达能力,优化了文本,例如歌词的情感分析效果,提高了文本情感分类的准确率。第一方面,本专利技术实施例提供了一种情感标注方法,该方法可以包括:接收待标注文本;采用预先训练好的至少一个训练模型对待标注文本进行情感分析,确定待标注文本的情感标签;为待标注文本标注情感标签。结合情感词提取和将情感词转换为词特征向量进行模型训练,并对待识别文本进行情感标注,优化了情感表达能力,同时,提高了训练模型对情感分析的准确率。可选地,在采用预先训练好的至少一个训练模型对待标注文本进行情感分析,确定待标注文本的情感标签之前,方法还包括:按照至少一个情感标签获取每个情感标签的训练集,训练集包括多个待训练文本;提取每个训练集包括的多个待训练文本的情感词;确定情感词的词向量;对每个训练集包括的多个待训练文本的情感词的词向量进行模型训练,得到训练模型。可选地,确定情感词的词向量,包括:使用Word2ved确定情感词的词向量。可选地,使用Word2ved确定情感词的词向量,包括:采用Word2ved包括的CBOW算法确定情感词的词向量。可选地,使用Word2ved确定情感词的词向量,包括:采用Word2ved包括的Skip-gram算法确定情感词的词向量。第二方面,本专利技术实施例提供了一种系统,该系统可以包括:接收单元,用于接收待标注文本;处理单元,用于采用预先训练好的至少一个训练模型对待标注文本进行情感分析,确定待标注文本的情感标签;处理单元,还用于为待标注文本标注情感标签。结合情感词提取和将情感词转换为词特征向量进行模型训练,并对待识别文本进行情感标注,优化了情感表达能力,同时,提高了训练模型对情感分析的准确率。可选地,系统还包括训练单元,处理单元,还用于按照至少一个情感标签获取每个情感标签的训练集,训练集包括多个待训练文本;处理单元,还用于提取每个训练集包括的多个待训练文本的情感词;处理单元,还用于确定情感词的词向量;训练单元,用于对每个训练集包括的多个待训练文本的情感词的词向量进行模型训练,得到训练模型。可选地,处理单元具体用于,使用Word2ved确定情感词的词向量。可选地,处理单元用于,采用Word2ved包括的CBOW算法确定情感词的词向量。可选地,处理单元具体用于,采用Word2ved包括的Skip-gram算法确定情感词的词向量。基于本专利技术实施例提供的情感标注的方法及其系统,结合情感词提取和将情感词转换为词特征向量进行模型训练,并对待识别文本进行情感标注,优化了情感表达能力,同时,提高了训练模型对情感分析的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种情感分类模型的训练方法的流程图;图2为本专利技术实施例提供的一种情感标注的方法流程图;图3为本专利技术实施例提供的一种系统的结构示意图。具体实施方式本专利技术提供了一种情感分类模型的训练方法及其系统,适用于对文本的情感分类,例如对歌词文件中的歌词的情感进行分类。下面结合附图对本专利技术提供的情感分类模型的训练方法进行详细的说明。图1为本专利技术实施例提供的一种情感分类模型的训练方法的流程图。如图1所示,该方法可以包括以下步骤:S110,按照至少一个情感标签获取每个情感标签的训练集,训练集包括多个待训练文本。采用流行的Thayer情感模型,即分别从能量和压力两个坐标轴将音频数据,例如歌曲的情感分类划分两类,例如将歌曲的情感分类形成“生机勃勃的”,“令人满足的”,“沮丧的”,“焦虑”,等等多种情感分类,即划分为多种情感标签。按照情感标签(如生机勃勃的,令人满意的,沮丧的,焦虑的等情感标签)分别从文本库中选取预设定数目的文本文件,组成训练集。例如从歌词库中抽取预设定数目,例如1000的歌词文件。需要说明的是,预设定数目可以根据需求进行设置。比如按照训练模型进行情感分类的准确精度进行确定,通常预设定数目越大,训练得到的训练模型进行情感分类时,对文本的情感分类的准确精度越高。S120,提取每个训练集包括的多个待训练文本的情感词。提取文本的情感词需要考虑多种情况,例如情感相关词对情感分析的影响;情感词在实际意义中存在的歧义,或者说,情感词在语义上下文中造成的歧义;以及否定词和修饰词对情感词的造成的情感置反、情感增强或削弱的作用,如歌曲中的歌词“在高楼大厦的城市中,我不幸福”,否定词“不”对情感词“幸福”造成了情感置反作用。基于提取情感词的上述情况,在本专利技术实施例中可以采用开源分词器,例如:哈工大语言平台LTP、中科院的ictclas分词器、SCWS分词器,庖丁解牛分词器等开源分词器中的任意一个或者多个开源分词器从多个待训练文本中获取情感词。在本专利技术实施例中,采用开源分词器,例如LTP进行情感词的提取,使得歌词情感分析更加方便、准确。将按照情感标签抽取的多个待训练文本中的情感词提取出来,并将提取的每个情感标签对应的情感词生成情感列表,情感列表中的每个情感词包括一个情感强度值,情感强度值的范围可以为0至1。例如:歌曲中的歌词“在高楼大厦的城市中,我不幸福”,提取的情感词可以为“不”和“幸福”,经过逻辑判定后,情感强度值为“幸福0”,其中,0表示情感强度值最低,1表示情感强度值最高。幸福0表示幸福值最低。需要说明的是,在本专利技术实施例中,将情感强度值设置为0至1的值仅仅是为了说明本专利技术的技术方案,在本专利技术实施例中,情感强度值还可以设置为其他范围的数值,在本专利技术实施例中对此不作限制,可以需求进行自定义设置。S130,确定情感词的词向量。在本专利技术实施例中,可以使用word2vec从上述情感词列表生成文本的词向量。word2vec可以在捕捉语境信息的同时压缩数据规模。word2vec实际上有两种不同的算法:ContinousBagofWords(CBOW)算法和Skip-gram算法。CBOW算法的目的是根据文本的上下文来预测当前词语的概率。Skip-gram算法刚好相反:可以根据当前词语来预测上下文的概率。这两种算法都利用人工神经网络作为它们的分类算法。起初,每个情感词都是一个随机N维向量。经过训练之后,利用CBOW算法或者Skip-gram算法获得每个情感词的最优词向量。将情感词提取与word2vec结合,使得构建出来的词向量具有更好的情感表达能力。S140,对每个训练集包括的多个待训练文本的情感词的词向量进行模型训练,得到训本文档来自技高网...
情感标注的方法及其系统

【技术保护点】
1.一种情感标注的方法,其特征在于,所述方法包括:接收待标注文本;采用预先训练好的至少一个训练模型对所述待标注文本进行情感分析,确定所述待标注文本的情感标签;为所述待标注文本标注所述情感标签。

【技术特征摘要】
1.一种情感标注的方法,其特征在于,所述方法包括:接收待标注文本;采用预先训练好的至少一个训练模型对所述待标注文本进行情感分析,确定所述待标注文本的情感标签;为所述待标注文本标注所述情感标签。2.根据权利要求1所述的方法,其特征在于,在所述采用预先训练好的至少一个训练模型对所述待标注文本进行情感分析,确定所述待标注文本的情感标签之前,所述方法还包括:按照至少一个情感标签获取每个情感标签的训练集,所述训练集包括多个待训练文本;提取每个所述训练集包括的所述多个待训练文本的情感词;确定所述情感词的词向量;对每个所述训练集包括的多个待训练文本的情感词的所述词向量进行模型训练,得到训练模型。3.根据权利要求1或2所述的方法,其特征在于,所述确定所述情感词的词向量,包括:使用Word2ved确定所述情感词的词向量。4.根据权利3所述的方法,其特征在于,所述使用Word2ved确定所述情感词的词向量,包括:采用所述Word2ved包括的CBOW算法确定所述情感词的词向量。5.根据权利要求3所述的方法,其特征在于,所述使用Word2ved确定所述情感词的词向量,包括:采用所述Word2ved包括的Skip-gram...

【专利技术属性】
技术研发人员:马明
申请(专利权)人:北京酷我科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1