【技术实现步骤摘要】
基于主题记忆网络的仇恨和攻击性言论识别方法及系统
[0001]本专利技术属于自然语言处理领域,尤其涉及基于主题记忆网络的仇恨和攻击 性言论识别方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在 先技术。
[0003]网络带给我们便利的同时,也引发了不少网络道德失范行为,其中充满攻击 性、侮辱谩骂的网络语言尤为突出。现有的社交软件,如微博、Twitter、Facebook、 Instagram等,由于服务的用户来自不同文化背景,导致软件中滋生大量仇恨和 攻击性言论,易对他人造成伤害,造成网络环境的污染。由于每日的数据激增, 依靠人工处理数据过多,导致工作量过大,迫切的需要能够自动识别仇恨和攻 击性言论的机制和方法。
[0004]关于仇恨和攻击性言论的识别任务,从分类类别来讲,现有技术主要可以 分为两大类,分别为:二分类和多分类。二分类任务即将文本划分为仇恨言论 或者非仇恨言论两类。该分类方法模糊了仇恨和攻击性言论的概念,将仇恨言 论和攻击性言论的概念混为一谈 ...
【技术保护点】
【技术特征摘要】
1.基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,包括:获取待识别文本,对待识别文本进行预处理;将预处理后文本转换为词袋向量和词索引序列向量,并进行特征提取得到特征向量;基于词袋向量,主题提取模型提取主题混合分布;基于主题混合分布,主题记忆机制获得主题词权重矩阵,并通过两次级联运算与词索引序列向量和特征向量进行联合学习,得到分类特征;基于分类特征,分类器得到文本是否属于仇恨和攻击性言论的结果。2.如权利要求1所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述联合学习的具体步骤为:所述词索引序列向量与第一记忆内存矩阵进行级联运算,并基于主题词权重矩阵计算第一匹配度;基于第一匹配度和所述特征向量,计算第二匹配度;混合所述主题混合分布、第一匹配度和第二匹配度,得到集成内存权重;基于集成内存权重和第二记忆内存矩阵,计算分类特征。3.如权利要求2所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述第一记忆内存矩阵和第二记忆内存矩阵由两个RELU作为激活函数的神经感知器产生。4.如权利要求1所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述提取主题混合分布的具体步骤为:基于词袋向量,编码器得到均值向量和方差向量;对均值向量和方差向量进行多次随机采样,获得潜在主题;基于潜在主题,解码器计算主题混合分布。5.如权利要求1所述的基于主题记忆网络的仇恨和攻击性言论识别方法,其特征在于,所述主题混合分布经过线性变换的神经感知器处理后,通过激活...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。