一种基于评价对象阵营的立场分析模型构建方法技术

技术编号:20389701 阅读:64 留言:0更新日期:2019-02-20 02:47
本发明专利技术公开了一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。与现有技术相比,本发明专利技术的积极效果是:通过本发明专利技术方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。综上,本发明专利技术的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。

【技术实现步骤摘要】
一种基于评价对象阵营的立场分析模型构建方法
本专利技术涉及一种基于评价对象阵营的立场分析模型构建方法。
技术介绍
在分析海量评论信息的立场(褒义、贬义、中立等)时,人工判断立场的方法需要耗费大量的人力且效率低。此外,评论信息中涉及的对象很多,评论信息中同样的表达方式,针对不同的对象,立场也不同。因此,当前基于对象进行情感褒贬分析的方法无法直接运用在立场分析。
技术实现思路
为了克服现有技术的上述缺点,本专利技术提供了一种基于评价对象阵营的立场分析模型构建方法,针对网络社交媒体的评论信息,构建对象阵营词典,利用本专利技术的对象阵营判断模型以及立场分析模型的协作,可以达到快速准确分析评论信息立场的目的。本专利技术解决其技术问题所采用的技术方案是:一种基于评价对象阵营的立场分析模型构建方法,包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。与现有技术相比,本专利技术的积极效果是:通过本专利技术方法构建的立场分析模型对目标对象的分析速度快,远远高于人工判定;其次是准确率高,模型准确率可达到72.54%,且能分析一些少数立场,同时,训练语料构建工作量小,只需要制作一个小规模的语料库,就可以对模型进行训练。综上,本专利技术的立场分析模型在分析目标对象立场时,不仅节约了人力成本,降低了工作量,且提高了对目标对象立场分析的效率及准确率。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1为本专利技术的原理框图。具体实施方式一种基于评价对象阵营的立场分析模型构建方法,如图1所示,针对网络社交媒体的评论信息,构建对象阵营词典。采用词典-评论信息匹配的方法,抽取出明显具有对象阵营特征的句子,作为对象阵营判断的学习语料,构建对象阵营判断模型,完成评论信息对象阵营的判断。人工标注评论信息的立场,并将其与对象阵营、评论信息共同作为立场分析模型的输入,通过训练得到立场分析模型。本专利技术的具体内容包括:(一)对象阵营判断模型构建1、对象阵营词典构建为了方便对象阵营判断语料的构建,首先通过人工分析方法构建对象阵营词典,用于匹配评论中的对象信息。该词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。2、对象阵营判断语料构建将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,共同构成对象阵营判断语料。同时,在不打乱语料对象阵营对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。3、对象阵营判断模型构建对象阵营判断模型是一个经典的双向长短记忆神经网络(BLSTM)。对象阵营判断模型的大体结构可以描述如下:a.输入层:将长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}输入。St=Embedding(Wt)b.双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。Ht=BSLTM(St)c.输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1。Pt=Softmax(W×htN+bias)其中,W为句子的权重,bias为偏置。(二)立场分析模型构建1、立场分析语料构建对目标对象评论信息的立场进行人工标注,结合评论信息对象阵营判断的结果,从评论信息的对象阵营、立场、评论信息内容三方面,完成立场分析语料构建。同样,在不打乱语料对应关系的基础上进行语料随机乱序,并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。2、立场分析模型构建结合评论信息对象阵营判断的结果,将评论信息的对象阵营、立场、评论信息内容三个要素共同作为立场分析模型的输入,基于BLSTM的分类神经网络,构建立场分析模型。模型结构描述如下:a.输入层:将长度为N的句子t的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}与该句子对象阵营的向量表示Vt进行连接,并作为立场分析模型的输入,记为It。其中,对象阵营Vt的向量表示方法为one-hot形式:对象阵营标签为0,向量类别表示为[1,0,0];对象阵营标签为1,向量类别表示为[0,1,0];对象阵营标签为2,向量类别表示为[0,0,1]。It=concatenate(St,Vt)b.双向神经网络:通过双向长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}(隐层输出,维度为50)。Ht=BSLTM(It)c.注意力层(attentionlayer):在每个词的隐层输出Ht上再连接一次该句子对象阵营Vt的向量表示,作为注意力层的输入Kt,在注意力层对该向量进行线性非线性变换,使之变成句子长度N维的概率分布At,并认为概率大的位置对于最后的立场判断更加重要。将该概率分布(概率分布拓展到与隐层输出的维度相同)与句子中每个词的隐层输出按位相乘,并求和,即加权求和,作为句子的一个表示Rt。注意力层采用Linear+Tanh+Linear变换。其中注意力层的输入Kt计算方法如下:Kt=concatenate(Ht,Vt)概率分布At:At=attention(Kt)句子的一个表示Rt:Rt=sum(At×Ht)d.输出层:将注意力层加权求和得到的句子表示Rt与句子最后一个词的隐层输出htN进行按位加法,结果作为最终的句子表示ht*,ht*=Rt+htN将ht*经过Linear函数变换为3维向量,并经过softmax函数得到一个3维概率分布Pt。Pt=Softmax(W×ht*+bias)。本文档来自技高网...

【技术保护点】
1.一种基于评价对象阵营的立场分析模型构建方法,其特征在于:包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。

【技术特征摘要】
1.一种基于评价对象阵营的立场分析模型构建方法,其特征在于:包括如下步骤:步骤一、构建对象阵营词典;步骤二、构建对象阵营判断语料;步骤三、构建对象阵营判断模型;步骤四、构建立场分析语料;步骤五、构建立场分析模型。2.根据权利要求1所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤一所述对象阵营词典内容为一个对象跟随一个类别标签,对象阵营包含两大阵营,分别记为0、1。3.根据权利要求2所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤二所述构建对象阵营判断语料的方法为:将对象的评论信息与词典进行匹配,选出明显具有对象阵营特征的评论信息,分别归到0、1阵营中,构成对象阵营判断语料;同时,在不打乱对象阵营判断语料对应关系的基础上进行语料随机乱序,并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。4.根据权利要求3所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:所述对象阵营判断模型的结构包括:(1)输入层:为长度为N的句子t中的每个词Wt={Wt1,Wt2,...,WtN,}的词向量St={St1,St2,...,StN,}:St=Embedding(Wt)(2)双向神经网络:通过双向的长短记忆神经网络得到每个词的抽象表示Ht={ht1,ht2,...,htN,}:Ht=BSLTM(St)(3)输出层:将每个句子最后一个词的隐层输出htN作为最终的句子表示,经过Linear层转化为2维并通过softmax函数得到一个2维概率分布Pt,分别代表评价对象阵营为0和1:Pt=Softmax(W×htN+bias)其中,W为句子的权重,bias为偏置。5.根据权利要求4所述的一种基于评价对象阵营的立场分析模型构建方法,其特征在于:步骤四所...

【专利技术属性】
技术研发人员:曾曦阳红谢瑞云夏明赟赵姝颖常明芳
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1