基于背景知识的讽刺检测方法技术

技术编号:24169051 阅读:32 留言:0更新日期:2020-05-16 02:21
本发明专利技术公开了一种基于背景知识的讽刺检测方法,该方法步骤如下:步骤(1)获取讽刺文本数据集SARC;步骤(2)数据预处理;步骤(3)提取目标文本中的实体并构建实体列表;步骤(4)构建背景知识并获取背景知识的句向量;步骤(5)训练讽刺检测模型;步骤(6)预测讽刺文本。本方法利用百科搜索引擎构建与数据集文本相关的背景知识,通过加入相关的背景知识来解决文本是否为讽刺的二分类问题。采用深度学习方法对文本进行分类。实验结果表明,加入相关的背景知识对文本的讽刺检测性能有明显的提升。

Irony detection method based on background knowledge

【技术实现步骤摘要】
基于背景知识的讽刺检测方法
本专利技术涉及深度学习的情感分析方法,属于互联网自然语言处理领域。
技术介绍
讽刺作为社交媒体中常用到的表达修辞手法,说话者通过讽刺来表达实际的不同于文字字面内容的隐式情感,这种情感多是否定、嘲笑、批评等意思。讽刺的出现也对社交媒体情感分析与舆论分析带来了巨大的困难。语言学中,句子中出现的情感词、标点符号都被作为讽刺的标志。讽刺检测之前的工作多是基于文本内容本身来分析,通过句子中出现的情感词及句子表达的情感、情绪等特征来判断是否含有讽刺。但是在社交媒体中,用户发表的内容多为口语化的短文本,有些句子中根本没有上述提到的讽刺标志。如果仅通过句子本身内容,很难进行识别。然而通过文本中的背景知识有助于分析句子实际要表达的语义信息。
技术实现思路
本专利技术的目的在于提出了一种基于背景知识的讽刺检测方法,本方法在基于文本本身进行讽刺检测的基础上,利用百科搜索引擎为文本添加涉及到的背景知识的特征信息来解决文本是否含有讽刺的分类问题。为实现上述目的,本专利技术采用的技术方法为基于背景知识的讽刺检本文档来自技高网...

【技术保护点】
1.基于背景知识的讽刺检测方法,其特征在于:该方法的步骤如下,/n步骤(1)获取讽刺文本数据集;/n步骤(2)数据预处理/n步骤(3)提取数据集中的实体并构建实体列表/n对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体,通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表;/n步骤(4)构建背景知识并获取背景知识的句向量/n分别对构建的实体列表中的实体在百科搜索引擎中检索其相关文本信息,并且将相关文本信息作为数据集的背景知识,通过doc2vec模型训练获取背景知识的句向量;/n步骤(5)...

【技术特征摘要】
1.基于背景知识的讽刺检测方法,其特征在于:该方法的步骤如下,
步骤(1)获取讽刺文本数据集;
步骤(2)数据预处理
步骤(3)提取数据集中的实体并构建实体列表
对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体,通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表;
步骤(4)构建背景知识并获取背景知识的句向量
分别对构建的实体列表中的实体在百科搜索引擎中检索其相关文本信息,并且将相关文本信息作为数据集的背景知识,通过doc2vec模型训练获取背景知识的句向量;
步骤(5)训练讽刺检测模型
步骤(6)预测讽刺文本
使用数据集中的训练集对模型进行训练调参后,得到讽刺检测模型参数,使用模型对测试集文本进行预测测试,预测文本的类别,类别包含讽刺与非讽刺两类。


2.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤1中所述的数据集为Reddit英文论坛用户评论的讽刺文本英文数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影等。数据集中讽刺类别标签为1,非讽刺类别标签为0。


3.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤2所述的预处理包括去除停用词、英文单词词形还原和去除特殊符号。


4.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤3中所述的命名实体识别通过自然语言处理工具包Stanford和NLTK实现。


5.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:获取背景知识句向量的算法描述如下:
1)数据集的一条背景知识序列为w1,w2,w3,......wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,......xT,xq为这条背景知识中第q个单词的单词向量;
2)根据单词wt计算单词wt的平均log可能性,t∈(1,T):滑动窗口为k,取wt两侧k个单词的向量作为算法的输入;...

【专利技术属性】
技术研发人员:杜宇李童杨震
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1