【技术实现步骤摘要】
基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
本专利技术属于电子信息
,涉及一种基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法。
技术介绍
随着互联网与电子商务的快速发展,人们越来越多地通过互联网进行在线购物、订餐、预定酒店等。人们经常会在购物完成后在商品的评论区域发表自己对于商品的看法和建议,这些商品评论对于消费者和企业都具有重要意义。对于消费者而言,这些商品评论是消费者了解产品性能的重要渠道,会对消费者的购买决策产生直接影响。对于生产产品的企业,商品评论在企业进行产品改进、新功能设计、竞品分析等方面具有重要意义。但是,商品评论的数量是十分惊的,就某一单个商品而言,不同电商网站、微博、论坛关于该产品的评论可多达几十万条。对于一些热门商品,其评论数量更是无法想象。不管对于企业还是消费者,如何从评论中找到真正有用的信息,更进一步的如何更准确的将这些信息所反映出的问题归类细化成为一个巨大的难题。评论中往往会从不同的角度去描述对应的商品,以评论“收到新手机很开心,手机外观非常好看 ...
【技术保护点】
1.一种基于评价对象强化和带约束标签嵌入的方面类别检测系统,其特征在于,包括:/n通用语义嵌入模块,用于通过预训练好的词向量将商品评论中的字或词映射成对应的字或词向量表示;/n方面类别特征提取模块,用于采用双向LSTM来对商品评论进行编码,以使得句子中的每个词能包含句子上下文的语义信息;/n评价对象信息强化模块,用于将评价对象信息通过评价对象抽取任务引入到方面类别检测模型中,通过相应的门控机制来实现评价对象信息和方面类别检测模型的融合,得到句子中各个词语相对于评价对象的注意力得分;/n带约束的多标签嵌入模块,用于将不同的方面类别通过标签嵌入形成相应的主题向量,通过和句子中的 ...
【技术特征摘要】 【专利技术属性】
1.一种基于评价对象强化和带约束标签嵌入的方面类别检测系统,其特征在于,包括:
通用语义嵌入模块,用于通过预训练好的词向量将商品评论中的字或词映射成对应的字或词向量表示;
方面类别特征提取模块,用于采用双向LSTM来对商品评论进行编码,以使得句子中的每个词能包含句子上下文的语义信息;
评价对象信息强化模块,用于将评价对象信息通过评价对象抽取任务引入到方面类别检测模型中,通过相应的门控机制来实现评价对象信息和方面类别检测模型的融合,得到句子中各个词语相对于评价对象的注意力得分;
带约束的多标签嵌入模块,用于将不同的方面类别通过标签嵌入形成相应的主题向量,通过和句子中的每个词计算余弦相似度得到对应的相似度得分矩阵,通过最大池化得到句子中各个词的注意力得分;
多注意力特征融合模块,用于将句子关于评价对象的注意力表示、句子关于实体标签嵌入的注意力表示、句子关于属性标签嵌入的注意力表示相结合,提取句子的方面类别特征;
方面类别输出预测模块,用于通过多注意力特征融合模块的输出进行最终的方面类别预测,通过实体标签损失、属性标签损失、方面类别标签损失共同引导模型的训练。
2.一种基于评价对象强化和带约束标签嵌入的方面类别检测方法,其特征在于,包括以下步骤:
步骤0:数据标记
将商品评论数据分解为字序列,并给出每条商品评论所对应的实体类别标签、属性类别标签和评论中的评价对象;对于句子中的评价对象,标记过程中需要生成相应的句子的BIO标记序列,B代表评价对象开始,I评价对象内部字,O代表无关字;
步骤1:数据形式化说明
对于商品评论的方面类别检测任务定义如下:对于任意一条评论X={v1,v2,…,vn,…,vN};其中,v代表句子中的单个字,n为字在所在句子中的下标,句子长度即句子中含有的字的个数为N;方面类别检测任务需要预测出句子中含有的标签类别,用Y={y1,y2,…,yk,…,yK}表示;其中,K代表标签类别的个数,yk代表句子中是否包含第k个方面类别,yk的取值范围为yk∈{0,1};其中,0代表不包含,1代表包含;方面类别标签为混合标签或单独的标签的形式,若为混合标签的形式,则分别将混合标签的两部分称为实体标签和属性标签;采用E={e1,e2,…,el,…,eL}表示实体标签集合;其中,L代表实体标签类别的个数,el代表句子中是否包含第l个实体方面类别,el的取值范围为el∈{0,1};同理采用A={a1,a2,…,am,…,aM}表示属性标签集合;其中,M代表属性标签类别的个数,am代表句子中是否包含第m个属性方面类别,am的取值范围为am∈{0,1};模型需要预测出商品评论中含有的标签类别Y;
步骤2:商品评论通用语义嵌入
将输入句子中的词语映射为向量,对于包含n个字的商品评论X={v1,v2,…,vn,…,vN},首先用Glove字向量通过嵌入层将句子中的每一个字映射成为300维的字向量,记为X={w1,w2,…,wn,…,wN};其中,wn代表句子对应单词的向量表示,且wn∈Rd,d=300;
步骤3:商品评论方面类别检测任务特征提取
在进行字嵌入之后,通过双向LSTM编码器对句子中的字进行上下文语义信息的嵌入,使得字向量具备语义信息;该过程对应的形式化表达如下:
其中,LSTM代表LSTM的细胞单元;输出结果记为其中,C代表category,即代表该隐藏层表示为主体特征模块的输出结果;
步骤4:评价对象信息的引入
在进行词嵌入之后,句子通过双向LSTM编码器来获取评价对象任务的特征表示,用于评价对象抽取任务;该过程对应的形式化表达如下:
其中,LSTM代表LSTM的细胞单元;输出结果记为其中,T代表评价对象,即代表该隐藏层表示为评价对象特征强化模块的输出结果;
对评价对象强化模块的隐藏层通过全连接层进行特征维度的转换,通过Softmax函数计算输出概率,实现评价对象的预测;该过程对应的形式化表达如下:
其中,WA和bA为全连接层的训练参数;通过Softmax函数进行归一化,输出最终的标签预测概率;为序列标注的标签的输出概率,对应的标签集合为{B,I,O};采用交叉熵作为最终的损失函数,对应的形式化表达如下:
步骤5:评价对象和方面类别检测任务特征融合
通过门控机制评价对象的特征来过滤相应的噪声,通过注意力机制计算得到经过评价对象信息强化的句子级表示,具体实现过程如下:
步骤6:方面类别标签嵌入
将数据中的实体标签E={e1,e2,…,el,…,eL}和属性标签A={a1,a2,…,am,…,aM}进行词嵌入,得到相应的主题向量和各个主题向量的使用主题标签对应的主题词的词向量进行初始化;对于中文则采用主题词中包含的字向量求和平均的方式初始化方面类别标签嵌入;与句子对应的字嵌入X={w1,w2,…,wn,…,wN}相同,el,am∈Rd;标签嵌入得到的主题向量即代表该类别的主题信息,其与句子的词嵌入处于同一向量空间;
步骤7:计算相似度矩阵
技术研发人员:饶元,梁宏伟,贺龙,吴连伟,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。