一种基于多维度语义表示的攻击性评论检测方法技术

技术编号:34459881 阅读:13 留言:0更新日期:2022-08-06 17:17
本发明专利技术公开了一种基于多维度语义表示的攻击性评论检测方法,所述方法包括以下步骤:步骤1:评论文本数据采集及预处理;步骤2:文本多维度语义向量生成;步骤3:多维度语义向量交叉编码;步骤4:层级融合分类器预测攻击性检测结果。本发明专利技术可以有效解决攻击性评论检测中存在的现有文本表示方法难以深入挖掘语义信息,信息表示维度单一且关联信息较弱等问题。信息表示维度单一且关联信息较弱等问题。信息表示维度单一且关联信息较弱等问题。

【技术实现步骤摘要】
一种基于多维度语义表示的攻击性评论检测方法


[0001]本专利技术涉及一种基于多维度语义表示的攻击性评论检测方法,该方法可用于互联网社交平台攻击性语言检测中,属于互联网与人工智能


技术介绍

[0002]随着社交媒体平台的蓬勃发展,网络社交已为人们沟通的主流方式,便捷的交流平台能够丰富用户的思想市场,社交媒体的多样性和普及性也使得不同行业和不同知识基础的用户自由发声。但是由于社交平台的用户身份可匿名性、现实世界的情绪堵塞以及社交网络的媒介效应等诸多因素,社交网络上的语言暴力等攻击性行为屡见不鲜,严重影响网络空间的公序良俗。因此,检测社交用户发表的攻击性评论,是网络空间内容治理的一项重要工作。
[0003]对于从社交媒体采集的用户评论数据,研究者们首先对文本数据进行简单清洗;接着使用语言表征模型对预处理后的文本数据进行文本表示,即将文本数据转换为计算机可理解的形式,并在此过程中提取分类数据的特征;然后构造分类器选择最优的分类匹配,从而分类。目前社交媒体上攻击性语言检测的常用方法大多使用机器学习、深度学习和预训练模型。传统的机器学习方法处理社交媒体上复杂的攻击性语言,不仅十分消耗计算机的算力和内存,且算法准确率上升空间有限。此外,传统的机器学习方法不能对单词之间的远程依赖关系进行建模,且存在数据稀疏性问题。而基于深度学习的方法能够有效识别却很难对攻击性语言进行准确分类,并且没有从多维度分析不同的词嵌入信息对检测攻击性语言的正面影响,也未挖掘出社交用户的历史信息关联和文体特征。
[0004]本专利技术针对攻击性评论检测中存在的信息表示维度单一、关联信息较弱以及暗讽性评论检测效果不佳等问题,提出一种基于多维度语义表示的攻击性评论检测方法(User

Offensive Comment Detection based on Multi

dimensional Semantic Representation,UOCD

MSR)。首先,本专利技术提出文本多维度语义向量生成模块对输入评论文本从针对目标和语义内容两个维度生成字面层级的文本向量,并挖掘用户的历史关联信息实现隐喻层级的语义信息表示;接着,根据多维度语义向量交叉编码机制增强字面层级和隐喻层级语义信息之间的关联程度;最后,使用层级融合分类器充分保障编码后的目标和内容之间的潜在交互信息以及语义保留度,提高攻击性评论的检测结果。

技术实现思路

[0005]针对现有技术存在的问题与不足,本专利技术提出一种基于多维度语义表示的攻击性评论检测方法UOCD

MSR,该方法能够准确检测社交媒体中用户发表的攻击性评论文本。
[0006]为了实现上述目的,本专利技术的技术方案如下:一种基于多维度语义表示的攻击性评论检测方法,该方法主要包括评论文本数据采集与预处理、文本多维度语义向量生成、多维度语义向量交叉编码和层级融合分类器预测检测结果等过程,能够对文本进行多维度语义分析,准确检测出社交媒体中的攻击性评论。该方法主要包括四个步骤,具体如下:
[0007]步骤1:评论文本数据采集及预处理。首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID。接着,对数据集中每一个样本进行预处理,包括分词、替换、分割和去除等操作;
[0008]步骤2:文本多维度语义向量生成。对预处理后的评论文本,从针对目标和语义内容两个维度进行全方位的深度挖掘,通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示;并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示,以此达到暗讽性文本的高准确率检测。
[0009]步骤3:多维度语义向量交叉编码。根据步骤2生成的文本词向量,采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。
[0010]步骤4:层级融合分类器预测检测结果。根据步骤3获得的目标向量和语义向量,通过层级融合分类器将维度不一致的两种向量进行融合,并最大程度还原文本初始意义,最后送入分类器里得到预测结果。
[0011]相对于现有技术,本专利技术的有益效果如下:
[0012]1.该方法提出的UOCD

MSR模型能够对评论文本进行多维度语义分析,深入挖掘隐喻层级的语义信息,提高了社交媒体中攻击性评论的检测效果。
[0013]2.UOCD

MSR模型采用多维度语义向量编码机制,准确识别句子中的指向性目标并综合考虑字面层级和隐喻层级的语义信息,达到两者之间的关联性增强效果,最大化利用各个维度的文本向量所表达的语义信息。
[0014]3.该方法引入各社交媒体用户攻击性评论检测场景,能够有效提升模型的泛化能力,同时提高攻击性评论检测的评价标准值,达到较高水平。
附图说明
[0015]图1为本专利技术实施例的方法总体框架图。
[0016]图2为本专利技术实施例的方法流程图。
具体实施方式
[0017]为了加深对本专利技术的认识和理解,下面结合具体实施例进一步阐明本专利技术。实施例:本专利技术的整体框架和具体流程分别如图1和图2所示,具体实施步骤如下:
[0018]步骤1,评论文本数据采集及预处理。具体如下:首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID。然后,针对评论数据集进行预处理,采取Python中的表情库,将每条评论中的表情转换为对应的含义文本;使用Python中的第三方库词段通过识别大写字符来分割标签;将所有@USER的字段全部替换为一个@USER令牌,以在保留必要信息的同时去除冗余词;根据社交媒体平台上经常使用的侮辱性词汇列表将大量攻击性词汇常见的拼写变体映射为规范形式;删除尾随空格和无用的标点符号。
[0019]步骤2,文本多维度语义向量生成。假设某社交平台上的用户评论数据集为D
s
={s1,s2,

,s
L
},其中s
i
是数据集中第i个句子,L是数据集的长度。给定一个单词序列W={w1,w2,

,w
n
}表示文本句子。攻击性语言检测可以定义成为每个句子分配标签以区分句子是否具有攻击性;再为每个攻击性句子(OFF)分配标签
指示句子是具有针对性的攻击还是非针对性的攻击。该步骤实施过程分为4个子步骤:
[0020]子步骤2

1,特定目标攻击向量表示。目标是指特定的个人或实体,使用ELMo和BiLSTM进行训练的命名实体识别方法,对文本进行特定目标攻击向量表示。对于输入的文本序列W={w1,w2,

,w
n
},首先通过BIOES方法进行标注,得到标注后的字向量序列x={x1,x2,

,x
n
}。针对标注后的序列,文本多维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维度语义表示的攻击性评论检测方法,其特征在于,所述方法包括以下步骤:步骤1:评论文本数据采集及预处理;步骤2:文本多维度语义向量生成;步骤3:多维度语义向量交叉编码;步骤4:层级融合分类器预测攻击性检测结果。2.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤1:评论文本数据采集及预处理,具体如下:首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID,接着,对数据集中每一个样本进行预处理,包括分词、替换、分割和去除操作。3.根据权利要求2所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤2:文本多维度语义向量生成,对预处理后的评论文本,从针对目标和语义内容两个维度进行全方位的深度挖掘,通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示;并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示,以此达到暗讽性文本的高准确率检测。4.根据权利要求3所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤3:多维度语义向量交叉编码,根据步骤2生成的文本词向量,采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。5.根据权利要求4所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤4:层级融合分类器预测检测结果,根据步骤3获得的目标向量和语义向量,通过层级融合分类器将维度不一致的两种向量进行融合,并最大程度还原文本初始意义,最后送入分类器里得到预测结果。6.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤2,文本多维度语义向量生成,具体如下:假设某社交平台上的用户评论数据集为D
s
={s1,s2,

,s
L
},其中s
i
是数据集中第i个句子,L是数据集的长度,给定一个单词序列W={w1,w2,

,w
n
}表示文本句子,攻击性语言检测定义成为每个句子分配标签以区分句子是否具有攻击性;再为每个攻击性句子(OFF)分配标签指示句子是具有针对性的攻击还是非针对性的攻击,该步骤实施过程分为4个子步骤:子步骤2

1,特定目标攻击向量表示,目标是指特定的个人或实体,使用ELMo和BiLSTM进行训练的命名实体识别方法,对文本进行特定目标攻击向量表示,对于输入的文本序列W={w1,w2,

,w
n
},首先通过BIOES方法进行标注,得到标注后的字向量序列x={x1,x2,

,x
n
},针对标注后的序列,文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征,CNN主要提取字符级别的特征,ELMO则提取词语的动态特征,最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起,形成新向量x

={x
′1,x
′2,

,x

n
}送入到BiLSTM中,BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数,并输出最优标注序列作为特定目标攻击向量表示S
T
,如公式(1)所示,其中为文本序列W中对应的第i个词的特定目标向量表示:
子步骤2

2,广义目标攻击向量表示,通过一个性别去偏置模型从给定语料库中学习性别保留去偏词嵌入作为广义目标攻击向量表示G
T
,如公式(2)所示,其中为文本序列W中对应的第i个词的广义目标向量表示,子步骤2

3,显式语义...

【专利技术属性】
技术研发人员:杨鹏赵翰林冷俊成李文军
申请(专利权)人:南京优慧信安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1