当前位置: 首页 > 专利查询>济南大学专利>正文

基于主题记忆网络的仇恨和攻击性言论识别方法及系统技术方案

技术编号:31022234 阅读:31 留言:0更新日期:2021-11-30 03:14
本发明专利技术属于自然语言处理领域,提供了基于主题记忆网络的仇恨和攻击性言论识别方法及系统,首先将文本转换为词袋向量和词索引序列向量,并进行特征提取得到特征向量;然后基于词袋向量,主题提取模型提取主题混合分布;基于主题混合分布,主题记忆机制获得主题词权重矩阵,并通过两次级联运算与词索引序列向量和特征向量进行联合学习,得到分类特征;最后基于分类特征,分类器得到文本是否属于仇恨和攻击性言论的结果;达到了丰富短文本特征的目的,解决了短文本存在的特征稀疏问题,提高了仇恨和攻击性言论识别的精度。仇恨和攻击性言论识别的精度。仇恨和攻击性言论识别的精度。

【技术实现步骤摘要】
基于主题记忆网络的仇恨和攻击性言论识别方法及系统


[0001]本专利技术属于自然语言处理领域,尤其涉及基于主题记忆网络的仇恨和攻击 性言论识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在 先技术。
[0003]网络带给我们便利的同时,也引发了不少网络道德失范行为,其中充满攻击 性、侮辱谩骂的网络语言尤为突出。现有的社交软件,如微博、Twitter、Facebook、 Instagram等,由于服务的用户来自不同文化背景,导致软件中滋生大量仇恨和 攻击性言论,易对他人造成伤害,造成网络环境的污染。由于每日的数据激增, 依靠人工处理数据过多,导致工作量过大,迫切的需要能够自动识别仇恨和攻 击性言论的机制和方法。
[0004]关于仇恨和攻击性言论的识别任务,从分类类别来讲,现有技术主要可以 分为两大类,分别为:二分类和多分类。二分类任务即将文本划分为仇恨言论 或者非仇恨言论两类。该分类方法模糊了仇恨和攻击性言论的概念,将仇恨言 论和攻击性言论的概念混为一谈。多分类任务则将仇恨本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,包括:获取待识别文本,对待识别文本进行预处理;将预处理后文本转换为词袋向量和词索引序列向量,并进行特征提取得到特征向量;基于词袋向量,主题提取模型提取主题混合分布;基于主题混合分布,主题记忆机制获得主题词权重矩阵,并通过两次级联运算与词索引序列向量和特征向量进行联合学习,得到分类特征;基于分类特征,分类器得到文本是否属于仇恨和攻击性言论的结果。2.如权利要求1所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述联合学习的具体步骤为:所述词索引序列向量与第一记忆内存矩阵进行级联运算,并基于主题词权重矩阵计算第一匹配度;基于第一匹配度和所述特征向量,计算第二匹配度;混合所述主题混合分布、第一匹配度和第二匹配度,得到集成内存权重;基于集成内存权重和第二记忆内存矩阵,计算分类特征。3.如权利要求2所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述第一记忆内存矩阵和第二记忆内存矩阵由两个RELU作为激活函数的神经感知器产生。4.如权利要求1所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述提取主题混合分布的具体步骤为:基于词袋向量,编码器得到均值向量和方差向量;对均值向量和方差向量进行多次随机采样,获得潜在主题;基于潜在主题,解码器计算主题混合分布。5.如权利要求1所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述主题混合分布经过线性变换的神经感知器处理后,通过激活...

【专利技术属性】
技术研发人员:马坤陈静纪科陈贞翔杨波
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1