一种基于张量融合方式的情感分类的方法技术

技术编号：20842270 阅读：19 留言：0更新日期：2019-04-13 08:42

本发明专利技术涉及一种基于张量融合方式的情感分类的方法，包括：(1)数据预处理；(2)训练词向量；(3)针对具体任务建模；利用双向LSTM编码每一句话的上下文信息和语义信息，经过每一层网络的作用，得到每一句话的特征向量表示；(4)张量融合：采用张量融合的方式将模型输出的三个特征向量进行融合，通过信息之间的融合，得到最佳全面的特征表示，然后将融合之后形成的特征向量送往分类器进行情感分类。(5)训练模型。本发明专利技术不需要人工抽取任何特征，模型也不需要借助另外的自然语言处理工具对数据做预处理，同时不需要提前识别目前词进行情感分类，算法简单明了，效果明显。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于张量融合方式的情感分类的方法
本专利技术涉及一种基于张量融合方式的情感分类的方法，属于自然语言处理

技术介绍
随着当前时代的发展，网络信息化的时代以一种前所未有的速度迅速影响着人们的生活。与此同时，社会媒体也呈现出多样化的形态，论坛、博客以及微博等网络媒介发展迅速，网络用户的参与性不断提高，对于网络的使用方式也产生了巨大的变化。用户不再只是被动的获取网络知识，而是更加积极的成为网络信息的制造者，这样的改变使得网络媒介中呈现出大量的用来表用户情感、情绪和观点的各类形式的主观性信息，而文本则是其中最为重要的一种表现形式。针对这些主观性信息，如何更加有效的利用这些海量的数据，提取出人们感兴趣的、携带观点的文本，并且对其作出准确的分析是迄今为止自然语言处理领域中的非常重要的研究课题之一。文本情感分析，是自然语言处理研究领域中的一个非常重要的课题，亦可称作意见挖掘，这是对人们的观点，情绪评论，态度以及针对诸如产品、服务、组织、个体、事件、主题等实体的情感倾向作出有效的挖掘和分析，然后进一步对挖掘出来的信息归纳和推理的一类技术。文本情感分析自2002年由BoPang提出之后，获得了很大程度的关注，特别是在产品评论等的情感分析上获得了很大程度的关注。早期情感分析研究的方法主要是基于规则的方法和基于统计的方法。主要通过学习目标样本的特征，根据特征的分布对文本作出类别的判断。还有一些我们熟悉的机器学习方法，比如支持向量机，最大熵以及朴素贝叶斯等方法。这些方法建模和计算相对比较简单，但是对于一些复杂的分类问题，这些方法的泛化能力却受到很大的制约。随着深度学习...

【技术保护点】
1.一种基于张量融合方式的情感分类的方法，其特征在于，包括：(1)数据预处理：将原始数据处理成三句话格式，得到文本数据；将原始标签转换成数字化表示，积极情感用1表示，消极情感用0表示；(2)训练词向量：将文本数据转换成数学数据，即获取训练集中的每一个词相应的词向量，训练集即步骤(1)获取的文本数据；(3)针对具体任务建模：利用双向LSTM编码由步骤(1)得到的文本数据，双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；针对文本数据中的每一个样本，处理成三句话格式后包含三个子句，每个子句都由LSTM编码得到对应的特征向量，三个子句对应得到三个特征向量；(4)张量融合：采用张量融合的方式将步骤(3)输出的三个特征向量进行融合，具体融合方法是将三个特征向量利用外积的方式相乘，设定zl,zv,za，分别表示三个子句经Bi‑LSTM编码后的输出的三个特征向量，先将zl,zv,za这三个特征向量两两之间互相做外积，得到三个二维矩阵，对应三个平面，再将这三个平面中的每个点对应相乘得到...

【技术特征摘要】
2018.10.29 CN 20181126845031.一种基于张量融合方式的情感分类的方法，其特征在于，包括：(1)数据预处理：将原始数据处理成三句话格式，得到文本数据；将原始标签转换成数字化表示，积极情感用1表示，消极情感用0表示；(2)训练词向量：将文本数据转换成数学数据，即获取训练集中的每一个词相应的词向量，训练集即步骤(1)获取的文本数据；(3)针对具体任务建模：利用双向LSTM编码由步骤(1)得到的文本数据，双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；针对文本数据中的每一个样本，处理成三句话格式后包含三个子句，每个子句都由LSTM编码得到对应的特征向量，三个子句对应得到三个特征向量；(4)张量融合：采用张量融合的方式将步骤(3)输出的三个特征向量进行融合，具体融合方法是将三个特征向量利用外积的方式相乘，设定zl,zv,za，分别表示三个子句经Bi-LSTM编码后的输出的三个特征向量，先将zl,zv,za这三个特征向量两两之间互相做外积，得到三个二维矩阵，对应三个平面，再将这三个平面中的每个点对应相乘得到三维张量，融合完成；并将融合之后形成的特征向量送往分类器进行情感分类；(5)训练模型；将步骤(1)得到的文本数据打乱后分成若干份，设定为N份，每次取N-1份做训练，1份做验证，做N次交叉验证，得到最终实验结果。2.根据权利要求1所述的一种基于张量融合方式的情感分类的方法，其特征在于，所述步骤(2)，训练词向量，包括：A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据，并对初始训练数据进行清洗，去掉没有意义的特殊字符和格式，将HTML格式的数据处理成TXT格式的数据；B、将步骤A处理后的数据喂入Word2vec进行训练，训练时，采用skip-gram模型，窗口大小设为3-8，迭代周期设为2-15，设定词向量的维度是200-400维，训练结束后，得到一个词向量映射表；C、根据步骤B得到的词向量映射表，获取训练集的每一个词对应的词向...

【专利技术属性】
技术研发人员：李玉军，王玥，冀先朋，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人