讽刺文本协同识别方法、装置、设备及计算机可读介质制造方法及图纸

技术编号：26172230 阅读：72 留言：0更新日期：2020-10-31 13:48

本申请涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。该方法包括：获取待处理文本，待处理文本来自于社交媒体网络平台；提取待处理文本的语义特征信息和主题特征信息，语义特征信息用于表征待处理文本与讽刺类型的关联关系，主题特征信息用于表征待处理文本体现的讽刺主题；根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型，并确定待处理文本的主题标签。本申请利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别，既确定是否带有讽刺含义，在具备讽刺含义的情况下还同时识别出体现讽刺的主题，实现有主题区分度的文本语义表示，有效提高了讽刺识别的准确率和解释性。

Method, device, equipment and computer-readable medium for collaborative recognition of ironic text

全部详细技术资料下载

【技术实现步骤摘要】
讽刺文本协同识别方法、装置、设备及计算机可读介质
本申请涉及文本识别
，尤其涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。
技术介绍
随着互联网的普及化、大众化，不仅网民活跃于互联网上的社交媒体平台，各大企业、政府机关等也纷纷入驻互联网平台，通过互联网社交平台在线发布有关企业、政府机关的各种信息、政策等。互联网用户可以针对这些信息进行讨论，企业、政府机关则需要及时跟踪用户对政策的反馈信息以便于管理部门跟踪政策的实施情况，更好地进行决策。其中，针对用户采用与字面意义相反的讽刺性语句表达深层次的情感及观点的情况，企业和政府也需要准确识别，才能更准确、合理地收集用户反馈的信息。目前，相关技术中，对于讽刺检测常常采用三类方法：基于规则的方法(例如：VealeT,HaoY.Detectingironicintentincreativecomparisons[C]//ECAI.2010,215:765-770.)，基于传统机器学习的方法(例如：ReyesA,RossoP.Makingobjectivedecisionsfromsubjec本文档来自技高网...

【技术保护点】
1.一种讽刺文本协同识别方法，其特征在于，包括：/n获取待处理文本，其中，所述待处理文本来自于社交媒体网络平台；/n提取所述待处理文本的语义特征信息和主题特征信息，其中，所述语义特征信息用于表征所述待处理文本与讽刺类型的关联关系，所述主题特征信息用于表征所述待处理文本体现的讽刺主题；/n根据第一神经网络模型对所述语义特征信息和所述主题特征信息的识别结果确定所述待处理文本的文本类型，并确定所述待处理文本的主题标签，其中，所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的，所述标记信息用于标记所述训练数据是否为讽刺类型，并在所述训练数据是讽刺类型的情况下标记所述训练...

【技术特征摘要】
1.一种讽刺文本协同识别方法，其特征在于，包括：
获取待处理文本，其中，所述待处理文本来自于社交媒体网络平台；
提取所述待处理文本的语义特征信息和主题特征信息，其中，所述语义特征信息用于表征所述待处理文本与讽刺类型的关联关系，所述主题特征信息用于表征所述待处理文本体现的讽刺主题；
根据第一神经网络模型对所述语义特征信息和所述主题特征信息的识别结果确定所述待处理文本的文本类型，并确定所述待处理文本的主题标签，其中，所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的，所述标记信息用于标记所述训练数据是否为讽刺类型，并在所述训练数据是讽刺类型的情况下标记所述训练数据的讽刺主题，所述识别结果用于指示所述待处理文本是否为所述讽刺类型及所述待处理文本体现的所述讽刺主题，所述语义特征信息和所述主题特征信息用于对所述待处理文本进行协同识别。

2.根据权利要求1所述的方法，其特征在于，提取所述待处理文本的语义特征信息和主题特征信息包括：
将待处理文本转换为词向量；
利用双向长短期记忆神经网络对所述词向量进行编码，得到表示所述待处理文本语义的语义词向量；
通过确定所述语义词向量的语义权重得到所述语义特征信息，并通过确定所述语义词向量的主题权重得到所述主题特征信息。

3.根据权利要求2所述的方法，其特征在于，通过确定所述语义词向量的语义权重得到所述语义特征信息包括：
确定所述语义词向量的所述语义权重；
利用与每个语义词向量匹配的所述语义权重获取所有语义词向量的第一加权和；
将所述第一加权和作为所述语义特征信息。

4.根据权利要求2所述的方法，其特征在于，通过确定所述语义词向量的主题权重得到所述主题特征信息包括：
获取预设的多个主题的关键词的向量均值；
获取所述待处理文本的所述语义词向量与各个向量均值的余弦距离；
确定所述余弦距离中最大值对应的目标主题，并将所述最大值作为所述语义词向量与所述目标主题的相关度；
利用各个语义词向量的相关度确定所述各个语义词向量的所述主题权重；
利用与每个语义词向量匹配的所述主题权重获取所有语义词向量的第二加权和；
将所述第二加权和作为所述主题特征信息。

5.根据权利要求4所述的方法，其特征在于，获取预设的多个主题的关键词的向量均值之前，还包括按照如下方式构建所述多个主题和所述向量均值：
获取第一词语集合，其中，所述第一词语集合为第二词语集合中出现次数大于次数阈值的词语的集合；
将所述第一词语集合中的词语作为种子词；
将所述种子词转换为第一词向量；
获取所述第一词向量与所述第二词语集合中的第二词向量的余弦距离；
将所述余弦距离大于预设阈值的所述第二词向量作为所述种子词的拓展词；
将一个种子词和与之对应的所有拓展词作为一个主题的所述关键词；
获取所述多个主题的所述关键词的均值，得到所述多个主题的所述向量均值，并利用所有向量均值组成主题矩阵，用于存储不同主题的所述向量均值。

6.根据权利要求5所述的方法，其特征在于，根据第一神经网络模型对所述语义特征信息和所述主题特征信...

【专利技术属性】
技术研发人员：刘春阳，李秋丹，张丽，彭鑫，张旭，曾大军，王鹏，刘贺静，陈志鹏，王林子，张翔宇，贾玉改，解峥，
申请(专利权)人：中国科学院自动化研究所，国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人