讽刺类型的文本识别方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:26172231 阅读:67 留言:0更新日期:2020-10-31 13:48
本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。

【技术实现步骤摘要】
讽刺类型的文本识别方法、装置、设备及计算机可读介质
本申请涉及文本识别
,尤其涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。
技术介绍
随着互联网的高速发展,世界变得越来越小,不同地区、不同国家的人可以在互联网上一同讨论一个热点事件。互联网的虚拟性也给了许多人表达观点的机会,其中,讽刺是一种特殊的表达方式,在互联网中也充斥着大量含有讽刺意味的话语,正确理解讽刺含义对于体会文本的深层次语义具有重要作用。目前,讽刺检测工作大多基于深度学习方法提取特征,例如Ghosh等人提出了融合CNN和RNN的神经网络模型,结合文本语句进行语义建模(GhoshA,VealeT.Frackingsarcasmusingneuralnetwork[C]//Proceedingsofthe7thworkshoponcomputationalapproachestosubjectivity,sentimentandsocialmediaanalysis.2016:161-169.);Poria等人基于预训练的卷积神经网络模型,提取情感特征和人格特征并进本文档来自技高网...

【技术保护点】
1.一种讽刺类型的文本识别方法,其特征在于,包括:/n获取待处理文本,其中,所述待处理文本来自于社交媒体网络平台;/n采用多种方式提取所述待处理文本的目标特征信息,其中,所述目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;/n根据第一神经网络模型对所述目标特征信息的识别结果确定所述待处理文本的文本类型,其中,所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,所述标记信息用于标记所述训练数据是否为目标类型,所述识别结果用于指示所述待处理文本是否为所述目标类型,所述目标类型为讽刺类型。/n

【技术特征摘要】
1.一种讽刺类型的文本识别方法,其特征在于,包括:
获取待处理文本,其中,所述待处理文本来自于社交媒体网络平台;
采用多种方式提取所述待处理文本的目标特征信息,其中,所述目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;
根据第一神经网络模型对所述目标特征信息的识别结果确定所述待处理文本的文本类型,其中,所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,所述标记信息用于标记所述训练数据是否为目标类型,所述识别结果用于指示所述待处理文本是否为所述目标类型,所述目标类型为讽刺类型。


2.根据权利要求1所述的方法,其特征在于,采用多种方式提取所述待处理文本的目标特征信息包括:
将所述待处理文本转换为词向量;
采用多种方式确定相邻词向量之间的多个第一情绪对立参数;
融合所述多个第一情绪对立参数,得到所述相邻词向量之间的第二情绪对立参数;
在得到所有所述相邻词向量之间的所述第二情绪对立参数的情况下,利用所有所述第二情绪对立参数组成的矩阵确定所述待处理文本中各个词向量的注意力向量;
获取所述各个词向量与对应所述注意力向量的乘积的和,得到词语冲突性特征,其中,所述目标特征信息包括所述词语冲突性特征。


3.根据权利要求2所述的方法,其特征在于,
采用多种方式确定相邻词向量之间的多个第一情绪对立参数包括:
采用获取所述相邻词向量之间的均值、哈达玛乘积、L1距离及L2距离的方式确定所述多个第一情绪对立参数;
融合所述多个第一情绪对立参数,得到所述相邻词向量之间的第二情绪对立参数包括:
获取所述第一神经网络模型学习到的第一权重参数,其中,所述第一权重参数是在采用所述训练数据训练得到所述第一神经网络模型的过程中针对所述多种方式训练达到的局部最优值;
将所述多个第一情绪对立参数与对应所述第一权重参数的乘积的和作为所述第二情绪对立参数;
利用所有所述第二情绪对立参数组成的矩阵确定所述待处理文本中各个词向量的注意力向量包括:
通过对所述矩阵进行最大池化运算确定所述注意力向量。


4.根据权利要求2所述的方法,其特征在于,采用多种方式提取所述待处理文本的目标特征信息还包括:
采用长短期记忆神经网络提取所述待处理文本的文本结构化特征,其中,所述目标特征信息包括所述文本结构化特征。


5.根据权利要求4所述的方法,其特征在于,根据第一神经网络模型对所述目标特征信息的识别结果确定所述待处理文本的文本类型包括:
将所述词语冲突性特征和/或所述文本结构化特征...

【专利技术属性】
技术研发人员:李秋丹刘春阳彭鑫张丽曾大军张旭刘贺静王鹏王林子陈志鹏贾玉改张翔宇解峥
申请(专利权)人:中国科学院自动化研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1