基于双语信息的情绪分类方法及系统技术方案

技术编号：18940711 阅读：25 留言：0更新日期：2018-09-15 11:06

本发明专利技术公开了一种基于双语信息的情绪分类方法及系统，首先对收集的语料进行标注，得到标注样本，使用机器翻译程序，将中文语料翻译成英文语料、将英文语料翻译成中文语料，将两组中文语料进行合并得到最终的中文语料、将两组英文语料进行合并得到最终的英文语料；将中英文两组语料进行分词，使用词特征对文本进行特征表示；使用LSTM模型分别从中文词特征表示和英文词特征表示中学习更深层次的隐层特征；将学习到的两组隐层特征进行融合，训练情绪分类器进行情绪分类。本发明专利技术不仅解决了文本情绪分类任务中标注样本缺乏的问题，而且有效地提升了文本情绪分类任务的性能，在测试样本中取得了很好的情绪分类正确率。

Emotion classification method and system based on Bilingual information

The invention discloses an emotional classification method and system based on Bilingual information. Firstly, the collected corpus is labeled, and the labeled samples are obtained. Using machine translation program, the Chinese corpus is translated into English corpus, the English corpus is translated into Chinese corpus, and the two groups of Chinese corpus are merged to obtain the final Chinese language. The final English corpus is obtained by merging the two groups of English corpus; the Chinese and English corpus are divided into two groups of words, and the text is characterized by word features; the LSTM model is used to represent the deeper hidden features learned from the Chinese word features and the English word features respectively; and the two groups of hidden features learnt from the two groups of corpus are advanced into Line fusion, training emotion classifier for emotion classification. The invention not only solves the problem of lacking annotated samples in the text emotion classification task, but also effectively improves the performance of the text emotion classification task, and achieves a good accuracy rate of emotion classification in the test samples.

全部详细技术资料下载

【技术实现步骤摘要】
基于双语信息的情绪分类方法及系统
本专利技术涉及一种自然语言的计算机处理方法，具体涉及一种对文本进行情绪分类的方法及系统。
技术介绍
随着社交网络的迅速发展，Twitter、Facebook、微博等社交媒体逐渐成为人们沟通情感和传达信息的重要途径。它们是一种新兴的基于用户关系的信息获取、传播及分享平台，注册用户可以随时通过电脑、手机等设备发布信息。就国内而言，微博以更新快、信息量大、传播广等特点吸引了越来越多的用户，已逐渐成为人们分享和获取信息的核心社交平台。在微博海量的文本信息中，有很大一部分文本带有微博用户的情感信息。微博用户通过微博发表自己的观点，如对名人的喜欢或厌恶、对商品的评论、社会热点的看法及生活中的喜怒哀乐等。处理和分析这些带有情绪的言论有助于舆情监控、突发事件预警及心理疾病治疗等实际应用。因此，对微博等社交文本的情绪分析研究有着较高的研究意义和应用价值。情绪识别和情绪分类是情绪分析的两个基本任务。情绪识别（EmotionRecognition）是指对目标文本进行分析，判断该文本是否含有情绪。情绪分类（EmotionClassification）是针对文本表达的个人情绪（如：高兴、伤心、惊讶等）进行自动分类的方法。情绪识别是情绪分类的前提和基础，情绪分类是情绪分析的重点和难点。本专利技术主要解决情绪分类方面的技术问题。目前，已有的文本情绪分类研究都是在单语语料上训练得到情绪分类模型。例如，中国专利技术专利申请CN105243095A公开了一种基于微博文本的情绪分类方法，，包括以下步骤：S1、收集一定数量微博用户发表的微博文本，并将收集到的微博...

【技术保护点】
1.一种基于双语信息的情绪分类方法，其特征在于，包括以下步骤：(1) 从互联网上获取用于情绪分类的文本，所述文本包括中文文本和英文文本中的至少一类；(2) 使用机器翻译程序，将获取的中文文本翻译成英文，将英文文本翻译成中文，合并相同语言的文本，分别得到中文语料组和英文语料组；(3) 对中文语料组中的语料进行分词，使用词特征对文本进行表示，并使用LSTM模型学习深层次的隐层特征，得到中文隐层特征；对英文语料组中的语料进行分词，使用词特征对文本进行表示，并使用LSTM模型学习深层次的隐层特征，得到英文隐层特征；(4) 融合步骤(3)中获得的中文隐层特征和英文隐层特征，获得融合后的隐层特征，作为情绪分类器的输入特征；(5) 将步骤(4)中获得的融合后的隐层特征输入情绪分类器进行处理，实现情绪分类；其中，所述情绪分类器经过训练构建，对情绪分类器的训练包括：收集一定量的文本，进行人工标注，赋予每条文本一个情绪标签，构成训练文本集；对训练文本集采用上述步骤(2)‑(4)的方法处理获得融合后的隐层特征，对情绪分类器进行训练。

【技术特征摘要】
1.一种基于双语信息的情绪分类方法，其特征在于，包括以下步骤：(1)从互联网上获取用于情绪分类的文本，所述文本包括中文文本和英文文本中的至少一类；(2)使用机器翻译程序，将获取的中文文本翻译成英文，将英文文本翻译成中文，合并相同语言的文本，分别得到中文语料组和英文语料组；(3)对中文语料组中的语料进行分词，使用词特征对文本进行表示，并使用LSTM模型学习深层次的隐层特征，得到中文隐层特征；对英文语料组中的语料进行分词，使用词特征对文本进行表示，并使用LSTM模型学习深层次的隐层特征，得到英文隐层特征；(4)融合步骤(3)中获得的中文隐层特征和英文隐层特征，获得融合后的隐层特征，作为情绪分类器的输入特征；(5)将步骤(4)中获得的融合后的隐层特征输入情绪分类器进行处理，实现情绪分类；其中，所述情绪分类器经过训练构建，对情绪分类器的训练包括：收集一定量的文本，进行人工标注，赋予每条文本一个情绪标签，构成训练文本集；对训练文本集采用上述步骤(2)-(4)的方法处理获得融合后的隐层特征，对情绪分类器进行训练。2.根据权利要求1所述的基于双语信息的情绪分类方法，其特征在于：步骤(3)中，使用词袋模型将词特征转化为特征向量，其中向量的长度为词典的长度，如词典中的词在文本中出现，则对应的值为1，否则为0。3.根据权利要求1所述的基于双语信息的情绪分类方法，其特征在于：步骤(4)中，中文隐层特征和英文隐层特征采用拼...

【专利技术属性】
技术研发人员：李寿山，殷昊，周国栋，张民，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人