当前位置: 首页 > 专利查询>苏州大学专利>正文

基于双语信息的情绪分类方法及系统技术方案

技术编号:18940711 阅读:25 留言:0更新日期:2018-09-15 11:06
本发明专利技术公开了一种基于双语信息的情绪分类方法及系统,首先对收集的语料进行标注,得到标注样本,使用机器翻译程序,将中文语料翻译成英文语料、将英文语料翻译成中文语料,将两组中文语料进行合并得到最终的中文语料、将两组英文语料进行合并得到最终的英文语料;将中英文两组语料进行分词,使用词特征对文本进行特征表示;使用LSTM模型分别从中文词特征表示和英文词特征表示中学习更深层次的隐层特征;将学习到的两组隐层特征进行融合,训练情绪分类器进行情绪分类。本发明专利技术不仅解决了文本情绪分类任务中标注样本缺乏的问题,而且有效地提升了文本情绪分类任务的性能,在测试样本中取得了很好的情绪分类正确率。

Emotion classification method and system based on Bilingual information

The invention discloses an emotional classification method and system based on Bilingual information. Firstly, the collected corpus is labeled, and the labeled samples are obtained. Using machine translation program, the Chinese corpus is translated into English corpus, the English corpus is translated into Chinese corpus, and the two groups of Chinese corpus are merged to obtain the final Chinese language. The final English corpus is obtained by merging the two groups of English corpus; the Chinese and English corpus are divided into two groups of words, and the text is characterized by word features; the LSTM model is used to represent the deeper hidden features learned from the Chinese word features and the English word features respectively; and the two groups of hidden features learnt from the two groups of corpus are advanced into Line fusion, training emotion classifier for emotion classification. The invention not only solves the problem of lacking annotated samples in the text emotion classification task, but also effectively improves the performance of the text emotion classification task, and achieves a good accuracy rate of emotion classification in the test samples.

【技术实现步骤摘要】
基于双语信息的情绪分类方法及系统
本专利技术涉及一种自然语言的计算机处理方法,具体涉及一种对文本进行情绪分类的方法及系统。
技术介绍
随着社交网络的迅速发展,Twitter、Facebook、微博等社交媒体逐渐成为人们沟通情感和传达信息的重要途径。它们是一种新兴的基于用户关系的信息获取、传播及分享平台,注册用户可以随时通过电脑、手机等设备发布信息。就国内而言,微博以更新快、信息量大、传播广等特点吸引了越来越多的用户,已逐渐成为人们分享和获取信息的核心社交平台。在微博海量的文本信息中,有很大一部分文本带有微博用户的情感信息。微博用户通过微博发表自己的观点,如对名人的喜欢或厌恶、对商品的评论、社会热点的看法及生活中的喜怒哀乐等。处理和分析这些带有情绪的言论有助于舆情监控、突发事件预警及心理疾病治疗等实际应用。因此,对微博等社交文本的情绪分析研究有着较高的研究意义和应用价值。情绪识别和情绪分类是情绪分析的两个基本任务。情绪识别(EmotionRecognition)是指对目标文本进行分析,判断该文本是否含有情绪。情绪分类(EmotionClassification)是针对文本表达的个人情绪(如:高兴、伤心、惊讶等)进行自动分类的方法。情绪识别是情绪分类的前提和基础,情绪分类是情绪分析的重点和难点。本专利技术主要解决情绪分类方面的技术问题。目前,已有的文本情绪分类研究都是在单语语料上训练得到情绪分类模型。例如,中国专利技术专利申请CN105243095A公开了一种基于微博文本的情绪分类方法,,包括以下步骤:S1、收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注;S2、利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器;S3、利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。而在实际应用中,由于存在已标注样本不足和文本较短(如短微博文本)、信息量少等问题,现有技术中的情绪分类方法难以捕捉到有效的特征,严重影响了文本情绪分类的性能。因此,如何在已标注样本较少、文本较短、信息量少的应用场景下,提供一种有效的情绪分类方法,是本领域急需解决的问题。
技术实现思路
本专利技术的专利技术目的是提供一种基于双语信息的情绪分类方法,以有效提升文本情绪分类性能。本专利技术的另一个目的是提供一种基于双语信息的情绪分类系统。为达到上述专利技术目的,本专利技术首先对收集的语料进行标注,得到标注样本,使用机器翻译程序,将中文语料翻译成英文语料、将英文语料翻译成中文语料,将两组中文语料进行合并得到最终的中文语料、将两组英文语料进行合并得到最终的英文语料;将中英文两组语料进行分词,使用词特征对文本进行特征表示;使用LSTM模型分别从中文词特征表示和英文词特征表示中学习更深层次的隐层特征;将学习到的两组隐层特征进行融合,训练Softmax分类器进行情绪分类。具体地,本专利技术采用的技术方案是:一种基于双语信息的情绪分类方法,包括以下步骤:(1)从互联网上获取用于情绪分类的文本,所述文本包括中文文本和英文文本中的至少一类;(2)使用机器翻译程序,将获取的中文文本翻译成英文,将英文文本翻译成中文,合并相同语言的文本,分别得到中文语料组和英文语料组;(3)对中文语料组中的语料进行分词,使用词特征对文本进行表示,并使用LSTM模型学习深层次的隐层特征,得到中文隐层特征;对英文语料组中的语料进行分词,使用词特征对文本进行表示,并使用LSTM模型学习深层次的隐层特征,得到英文隐层特征;(4)融合步骤(3)中获得的中文隐层特征和英文隐层特征,获得融合后的隐层特征,作为情绪分类器的输入特征;(5)将步骤(4)中获得的融合后的隐层特征输入情绪分类器进行处理,实现情绪分类;其中,所述情绪分类器经过训练构建,对情绪分类器的训练包括:收集一定量的文本,进行人工标注,赋予每条文本一个情绪标签,构成训练文本集;对训练文本集采用上述步骤(2)-(4)的方法处理获得融合后的隐层特征,对情绪分类器进行训练。上述技术方案中,步骤(3)中,使用词袋模型将词特征转化为特征向量,其中向量的长度为词典的长度,如词典中的词在文本中出现,则对应的值为1,否则为0。步骤(4)中,中文隐层特征和英文隐层特征采用拼接方式整合;或者,中文隐层特征和英文隐层特征采用按位相加方式融合。优选地,所述情绪分类器由Softmax分类器经训练构建获得。上述技术方案中,步骤(1)中,使用计算机程序自动从微博上爬取微博文本、从Twitter上爬取Twitter文本,作为用于情绪分类的文本。为获得更好的分类效果,先对获取的文本进行自动语言识别,再由机器翻译程序将中文文本翻译成英文,将英文文本翻译成中文。为实现本专利技术的另一专利技术目的,本专利技术提供一种基于双语信息的情绪分类系统,包括:获取模块,用于从互联网上获取用于情绪分类的文本;机器翻译模块,用于将获取的中文文本翻译成英文,将英文文本翻译成中文;语料混合模块,用于合并相同语言的文本,分别得到中文语料组和英文语料组;特征提取模块,用于对语料进行分词处理并得到隐层特征;融合模块,用于融合中文隐层特征和英文隐层特征;情绪分类模块,用于实现情绪分类;上述各模块依次连接,上一模块的输出作为下一模块的输入。其中,所述特征提取模块为双通道模块,每一通道分别包括分词组件、词特征提取构建组件和LSTM模型层,两个通道分别用于对中文文本和英文文本的处理。由于上述技术方案运用,本专利技术与现有技术相比具有下列优点:本专利技术通过机器翻译,获取了文本的双语信息,不仅解决了文本情绪分类任务中标注样本缺乏的问题,而且能够使用翻译文本对源文本进行扩充,有效地提升了文本情绪分类任务的性能,在测试样本中取得了很好的情绪分类正确率。附图说明图1是本专利技术实施例的基于双语信息的情绪分类系统框架图;图2是本专利技术实施例与其它不同情绪分类方法性能比较图。具体实施方式下面结合附图及实施例对本专利技术作进一步描述:实施例一:参见图1所示,是本专利技术的一种基于双语信息的情绪分类系统框架结构,它的系统主要由两部分构成:训练和识别。包括:获取模块,用于从互联网上获取用于情绪分类的文本;机器翻译模块,用于将获取的中文文本翻译成英文,将英文文本翻译成中文;语料混合模块,用于合并相同语言的文本,分别得到中文语料组和英文语料组;特征提取模块,用于对语料进行分词处理并得到隐层特征;融合模块,用于融合中文隐层特征和英文隐层特征;情绪分类模块,用于实现情绪分类;上述各模块依次连接,上一模块的输出作为下一模块的输入。具体分别步骤描述如下:a)将收集到的微博文本和Twitter文本进行人工标注,赋予每条文本一个情绪标签;b)使用机器翻译程序,将微博文本翻译成中文、将Twitter文本翻译成英文;c)合并相同语言的文本,得到两组不同语言的语料;d)对两组语料进行分词,分别使用词特征对文本进行表示,并使用LSTM模型学习深层次的隐层特征;e)融合得到的两组隐层特征,构建最终情绪分类模型;f)使用训练好的分类模型,对测试样本进行情绪分类。所述语料处理过程中步骤a)中,通过Python程序从微博和Twitter网站收集语料,并安排人员进行情绪类本文档来自技高网
...

【技术保护点】
1.一种基于双语信息的情绪分类方法,其特征在于,包括以下步骤:(1) 从互联网上获取用于情绪分类的文本,所述文本包括中文文本和英文文本中的至少一类;(2) 使用机器翻译程序,将获取的中文文本翻译成英文,将英文文本翻译成中文,合并相同语言的文本,分别得到中文语料组和英文语料组;(3) 对中文语料组中的语料进行分词,使用词特征对文本进行表示,并使用LSTM模型学习深层次的隐层特征,得到中文隐层特征;对英文语料组中的语料进行分词,使用词特征对文本进行表示,并使用LSTM模型学习深层次的隐层特征,得到英文隐层特征;(4) 融合步骤(3)中获得的中文隐层特征和英文隐层特征,获得融合后的隐层特征,作为情绪分类器的输入特征;(5) 将步骤(4)中获得的融合后的隐层特征输入情绪分类器进行处理,实现情绪分类;其中,所述情绪分类器经过训练构建,对情绪分类器的训练包括:收集一定量的文本,进行人工标注,赋予每条文本一个情绪标签,构成训练文本集;对训练文本集采用上述步骤(2)‑(4)的方法处理获得融合后的隐层特征,对情绪分类器进行训练。

【技术特征摘要】
1.一种基于双语信息的情绪分类方法,其特征在于,包括以下步骤:(1)从互联网上获取用于情绪分类的文本,所述文本包括中文文本和英文文本中的至少一类;(2)使用机器翻译程序,将获取的中文文本翻译成英文,将英文文本翻译成中文,合并相同语言的文本,分别得到中文语料组和英文语料组;(3)对中文语料组中的语料进行分词,使用词特征对文本进行表示,并使用LSTM模型学习深层次的隐层特征,得到中文隐层特征;对英文语料组中的语料进行分词,使用词特征对文本进行表示,并使用LSTM模型学习深层次的隐层特征,得到英文隐层特征;(4)融合步骤(3)中获得的中文隐层特征和英文隐层特征,获得融合后的隐层特征,作为情绪分类器的输入特征;(5)将步骤(4)中获得的融合后的隐层特征输入情绪分类器进行处理,实现情绪分类;其中,所述情绪分类器经过训练构建,对情绪分类器的训练包括:收集一定量的文本,进行人工标注,赋予每条文本一个情绪标签,构成训练文本集;对训练文本集采用上述步骤(2)-(4)的方法处理获得融合后的隐层特征,对情绪分类器进行训练。2.根据权利要求1所述的基于双语信息的情绪分类方法,其特征在于:步骤(3)中,使用词袋模型将词特征转化为特征向量,其中向量的长度为词典的长度,如词典中的词在文本中出现,则对应的值为1,否则为0。3.根据权利要求1所述的基于双语信息的情绪分类方法,其特征在于:步骤(4)中,中文隐层特征和英文隐层特征采用拼...

【专利技术属性】
技术研发人员:李寿山殷昊周国栋张民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1