【技术实现步骤摘要】
一种文本情感分类方法及系统
本专利技术涉及电子领域,尤其涉及一种文本情感分类方法及系统。
技术介绍
自动情绪检测是自然语言处理中的一项重要任务,它可以方便广泛的下游应用,如聊天机器人、股票预测、政策研究等。在社交媒体中,人们倾向于在一段文字中表达多种情感,即多种情感在句子中共存,目前,通常采用卷积神经网络对自然语言进行情感分类,然而,由于卷积神经网络存在池化操作引起的缺点,当一段文字中存在多种情感时,使用卷积神经网络进行情感分类会导致分类精确度较低,不能较好地提取文字中所有情绪的特征。
技术实现思路
本专利技术提供一种文本情感分类方法及系统,以解决现有技术中情感分类精确度较低,不能较好地提取文字中所有情绪的特征的技术问题。本专利技术提供的文本情感分类方法,包括:将原始数据集输入预先构建的向量获取模型,获取文本向量集;将所述文本向量集输入主题增强胶囊网络进行训练,获取情感分类模型;将待预测文本输入所述情感分类模型进行情感标签预测,完成文本情感分类。可选的,将数据集输入 ...
【技术保护点】
1.一种文本情感分类方法,其特征在于,包括:/n将原始数据集输入预先构建的向量获取模型,获取文本向量集;/n将所述文本向量集输入主题增强胶囊网络进行训练,获取情感分类模型;/n将待预测文本输入所述情感分类模型进行情感标签预测,完成文本情感分类。/n
【技术特征摘要】
1.一种文本情感分类方法,其特征在于,包括:
将原始数据集输入预先构建的向量获取模型,获取文本向量集;
将所述文本向量集输入主题增强胶囊网络进行训练,获取情感分类模型;
将待预测文本输入所述情感分类模型进行情感标签预测,完成文本情感分类。
2.根据权利要求1所述的文本情感分类方法,其特征在于,将数据集输入深度学习的神经网络进行训练,获取初始文本向量的步骤包括:
采集原始数据集,所述原始数据集的每个文档均包括一个或多个情感标签;
将所述原始数据集输入预先构建的所述向量获取模型进行训练,对所述原始数据集中的文档进行分词,获取文本向量集,所述文本向量集包括一个或多个词向量。
3.根据权利要求1所述的文本情感分类方法,其特征在于,将所述初始文本向量输入主题增强胶囊网络进行训练,获取情感分类模型的步骤包括:
所述主题增强胶囊网络包括:用于重构词向量输入的主题模块和用于提取词向量的特征的胶囊模块;所述胶囊模块包括输入层、第一胶囊层、第二胶囊层和第三胶囊层,所述原发胶囊层、特征胶囊层和第三胶囊层的级别逐级递增;
将所述文本向量输入所述主题模块中的变分自动编码器进行编码,获取潜变量;
对所述潜变量进行归一化处理并进行解码,获取重构文本向量;
将所述重构文本向量输入所述胶囊模块进行训练,获取情感分类模型。
4.根据权利要求3所述的文本情感分类方法,其特征在于,将所述文本向量输入主题模块中的变分自动编码器进行编码的步骤包括:
将所述文本向量集输入所述变分自动编码器,所述变分自动编码器包括:一个或多个非线性隐藏层;
通过所述非线性隐藏层,将所述初始文本向量转换为先验参数;
构建所述先验参数和所述潜变量之间的对应关系;
根据所述先验参数和对应关系,获取所述潜变量,进而确定所述潜变量。
5.根据权利要求4所述的文本情感分类方法,其特征在于,将所述文本向量输入主题模块中的变分自动编码器进行编码的数学表达为:
其中,xBoW为文本向量的词袋表示,μ和σ均为先验参数;
所述先验参数和所述潜变量之间的对应关系的数学表达为:
Z=μ+σ·∈,Z∈RT
其中,Z为潜变量,∈为抽样的高斯噪声变量,R为总数据集,所述总数据集包括一个或多个词向量以及与所述词向量所对应的情感标签,T为情绪标签编号的最大值,进而确定所述潜变量。
6.根据权利要求3所述的文本情感分类方法,其特征在于,对所述潜变量进行归一化处理并进行解码,获取重构文本向量的步骤包括:
通过softmax函数对所述潜变量进行归一化处理并进行解码,获取重构文本向量,所述重构文本向量和情感标签一一对应,获取重构...
【专利技术属性】
技术研发人员:彭德光,黄攀,易兴,
申请(专利权)人:重庆兆光科技股份有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。