观点角色标注方法、装置、计算机设备和介质制造方法及图纸

技术编号:30495799 阅读:17 留言:0更新日期:2021-10-27 22:26
本公开提供了一种观点角色标注方法、装置、计算机设备和介质。该方法包括:将待标注语料输入句法模型;将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的双向长短期记忆模型和条件随机场模型,得到待标注语料的观点角色。本公开提供了一种不采用SRL辅助的方式,却也能够达到与采用SRL辅助的方式同样的性能的观点角色标注。方式同样的性能的观点角色标注。方式同样的性能的观点角色标注。

【技术实现步骤摘要】
观点角色标注方法、装置、计算机设备和介质


[0001]本公开涉及大数据领域,更具体而言,涉及一种观点角色标注方法、装置、计算机设备和介质。

技术介绍

[0002]在大数据领域,意见挖掘和情绪分析有广泛的实际应用,如社交媒体监控和一般电子商务应用。特别是,对意见和情绪的细粒度分析是理解政治家的立场,客户评论,营销趋势和其他主观信息的关键。观点角色标注(ORL)是细粒度的情感分析的一种形式,广泛用于大数据的挖掘中。
[0003]ORL即,针对待标注的评论句子或段落、文章等,自动标注出意见持有者(即谁在评论)、意见措辞(如何评论的)、意见目标(针对什么评论的)。标注后,标注的内容可以被后续的语义分析模型等进行进一步的分析,产生各种决策,例如,将网络的资源进行与用户意见匹配的投放等。
[0004]现有技术中,为了提高ORL的性能,一般使用语义角色标注(SRL)模型帮助实现ORL。即,将待标注语料一方面输入ORL,另一方面输入SRL,而SRL在产生语义角色标注过程中的一些语义信息可以回引到ORL模型中,帮助实现更精确的标注。如果不考虑词之间的语义的话,纯粹由ORL标注出的观点角色会由于缺少了语义分析而不准确。因此,利用SRL中产生的一些语义信息,能够大大提升ORL的性能。
[0005]公开内容
[0006]有鉴于此,本公开旨在提供一种不采用SRL辅助的方式,却也能够达到与采用SRL辅助的方式同样的性能的观点角色标注。
[0007]为了达到这个目的,根据本公开的一个方面,提供了一种观点角色标注方法,包括:
[0008]将待标注语料输入句法模型;
[0009]将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的双向长短期记忆模型(Bi-LSTM)和条件随机场模型(CRF),得到待标注语料的观点角色。
[0010]可选地,所述句法模型包括串联的Bi-LSTM编码层、打分层、解码层,所述Bi-LSTM编码层为所述待标注语料生成考虑语料前后词的语义联系的词序列表示,所述打分层根据所述词序列表示产生所述待标注语料中的各词的依存概率的概率矩阵,所述解码层根据所述概率矩阵产生句法树;所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示由所述Bi-LSTM编码层输出。
[0011]可选地,所述将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的Bi-LSTM和CRF,包括:
[0012]将所述隐藏状态词序列表示与所述待标注语料一起输入所述Bi-LSTM;
[0013]将所述概率矩阵与所述Bi-LSTM输出的特征序列一起输入图编码器;
[0014]将所述图编码器输出的编码结果输出到所述CRF,得到待标注语料的观点角色。
[0015]可选地,所述将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的Bi-LSTM和CRF,包括:
[0016]将所述隐藏状态词序列表示与所述待标注语料一起输入所述Bi-LSTM;
[0017]将所述句法树与所述Bi-LSTM输出的特征序列一起输入图编码器;
[0018]将所述图编码器输出的编码结果输出到所述CRF,得到待标注语料的观点角色。
[0019]可选地,所述图编码器是图卷积网络。
[0020]可选地,所述Bi-LSTM编码层多个LSTM子层,所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示为以下中的至少一个:
[0021]所述多个LSTM子层中指定的一个LSTM子层输出的隐藏状态词序列表示;
[0022]所述多个LSTM子层中指定的一部分LSTM子层输出的隐藏状态词序列表示的加权和;
[0023]所述多个LSTM子层输出的隐藏状态词序列表示的加权和。
[0024]可选地,所述句法模型在所述Bi-LSTM编码层之前还包括第一嵌入层,所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示为第一嵌入层输出的词序列表示。
[0025]可选地,所述将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的Bi-LSTM和CRF,包括:将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料经第二嵌入层得到的词序列表示一起输入串联的Bi-LSTM和CRF。
[0026]可选地,所述将所述句法树与所述Bi-LSTM输出的特征序列一起输入图编码器,包括:将所述句法树转换成0-1连接矩阵,与所述Bi-LSTM输出的特征序列一起输入图编码器。
[0027]可选地,所述概率矩阵是由所述打分层通过如下方式生成的:
[0028]根据所述词序列表示,针对所述待标注语料的词,产生该词与所述待标注语料中其它词的依存概率分数;
[0029]将所述依存概率分数归一化;
[0030]用各词与所述待标注语料中其它词的归一化依存概率分数,生成所述概率矩阵。
[0031]根据本公开的一个方面,提供了一种观点角色标注装置,包括:
[0032]句法模型输入单元,用于将待标注语料输入句法模型;
[0033]标注获得单元,用于将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的Bi-LSTM和CRF,得到待标注语料的观点角色。
[0034]可选地,所述句法模型包括串联的Bi-LSTM编码层、打分层、解码层,所述Bi-LSTM编码层为所述待标注语料生成考虑语料前后词的语义联系的词序列表示,所述打分层根据所述词序列表示产生所述待标注语料中的各词的依存概率的概率矩阵,所述解码层根据所述概率矩阵产生句法树;所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示由所述Bi-LSTM编码层输出。
[0035]可选地,所述标注获得单元进一步用于:
[0036]将所述隐藏状态词序列表示与所述待标注语料一起输入所述Bi-LSTM;
[0037]将所述概率矩阵与所述Bi-LSTM输出的特征序列一起输入图编码器;
[0038]将所述图编码器输出的编码结果输出到所述CRF,得到待标注语料的观点角色。
[0039]可选地,所述标注获得单元进一步用于:
[0040]将所述隐藏状态词序列表示与所述待标注语料一起输入所述Bi-LSTM;
[0041]将所述句法树与所述Bi-LSTM输出的特征序列一起输入图编码器;
[0042]将所述图编码器输出的编码结果输出到所述CRF,得到待标注语料的观点角色。
[0043]可选地,所述图编码器是图卷积网络。
[0044]可选地,所述Bi-LSTM编码层多个LSTM本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种观点角色标注方法,包括:将待标注语料输入句法模型;将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的双向长短期记忆模型(Bi-LSTM)和条件随机场模型(CRF),得到所述待标注语料的观点角色。2.根据权利要求1所述的方法,其中,所述句法模型包括串联的Bi-LSTM编码层、打分层、解码层,所述Bi-LSTM编码层为所述待标注语料生成考虑语料前后词的语义联系的词序列表示,所述打分层根据所述词序列表示产生所述待标注语料中的各词的依存概率的概率矩阵,所述解码层根据所述概率矩阵产生句法树;所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示由所述Bi-LSTM编码层输出。3.根据权利要求2所述的方法,其中,所述将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的Bi-LSTM和CRF,包括:将所述隐藏状态词序列表示与所述待标注语料一起输入所述Bi-LSTM;将所述概率矩阵与所述Bi-LSTM输出的特征序列一起输入图编码器;将所述图编码器输出的编码结果输出到所述CRF,得到待标注语料的观点角色。4.根据权利要求2所述的方法,其中,所述将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的Bi-LSTM和CRF,包括:将所述隐藏状态词序列表示与所述待标注语料一起输入所述Bi-LSTM;将所述句法树与所述Bi-LSTM输出的特征序列一起输入图编码器;将所述图编码器输出的编码结果输出到所述CRF,得到待标注语料的观点角色。5.根据权利要求3或4所述的方法,其中,所述图编码器是图卷积网络。6.根据权利要求2所述的方法,其中,所述Bi-LSTM编码层包括多个LSTM子层,所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示为以下中的至少一个:所述多个LSTM子层中指定的一个LSTM子层输出的隐藏状态词序列表示;所述多个LSTM子层中指定的一部分LSTM子层输出的隐藏状态词序列表示的加权和;所述多个LSTM子层输出的隐藏状态词序列表示的加权和。7.根据权利要求2所述的方法,其中,所述句法模型在所述Bi-LSTM编码层之前还包括第一嵌入层,所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示为第一嵌入层输出的词序列表示。8.根据权利要求1所述的方法,其中,所述将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的Bi-LSTM和CRF,包括:将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料经第二嵌入层得到的词序列表示一起输入串联的Bi-LSTM和CRF。9.根据权利要求4所述的方法,其中,所述将所述句法树与所述Bi-LSTM输出的特征序
列一起输入图编码器,包括:将所述句法树转换成0-1连接矩阵,与所述Bi-LSTM输出的特征序列一起输入图编码器。10.根据权利要求2所述的方法,其中,所述概率矩阵是由所述打分层通过如下方式生成的:根据所述词序列表示,针对所述待标注语料的词,产生该词与所述待标注语料中其它词的依存概率分数;将所述依存概率分数归一化;用各词与所述待标注语料中其它词的归一化依存概率分数,生成所述概率矩阵。11.一...

【专利技术属性】
技术研发人员:章波张月王睿
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1