一种基于多维度语义表示的攻击性评论检测方法技术

技术编号：34459881 阅读：13 留言：0更新日期：2022-08-06 17:17

本发明专利技术公开了一种基于多维度语义表示的攻击性评论检测方法，所述方法包括以下步骤：步骤1：评论文本数据采集及预处理；步骤2：文本多维度语义向量生成；步骤3：多维度语义向量交叉编码；步骤4：层级融合分类器预测攻击性检测结果。本发明专利技术可以有效解决攻击性评论检测中存在的现有文本表示方法难以深入挖掘语义信息，信息表示维度单一且关联信息较弱等问题。信息表示维度单一且关联信息较弱等问题。信息表示维度单一且关联信息较弱等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维度语义表示的攻击性评论检测方法

[0001]本专利技术涉及一种基于多维度语义表示的攻击性评论检测方法，该方法可用于互联网社交平台攻击性语言检测中，属于互联网与人工智能

技术介绍

[0002]随着社交媒体平台的蓬勃发展，网络社交已为人们沟通的主流方式，便捷的交流平台能够丰富用户的思想市场，社交媒体的多样性和普及性也使得不同行业和不同知识基础的用户自由发声。但是由于社交平台的用户身份可匿名性、现实世界的情绪堵塞以及社交网络的媒介效应等诸多因素，社交网络上的语言暴力等攻击性行为屡见不鲜，严重影响网络空间的公序良俗。因此，检测社交用户发表的攻击性评论，是网络空间内容治理的一项重要工作。
[0003]对于从社交媒体采集的用户评论数据，研究者们首先对文本数据进行简单清洗；接着使用语言表征模型对预处理后的文本数据进行文本表示，即将文本数据转换为计算机可理解的形式，并在此过程中提取分类数据的特征；然后构造分类器选择最优的分类匹配，从而分类。目前社交媒体上攻击性语言检测的常用方法大多使用机器学习、深度学习和预训练模型。传统的机器学习方法处理社交媒体上复杂的攻击性语言，不仅十分消耗计算机的算力和内存，且算法准确率上升空间有限。此外，传统的机器学习方法不能对单词之间的远程依赖关系进行建模，且存在数据稀疏性问题。而基于深度学习的方法能够有效识别却很难对攻击性语言进行准确分类，并且没有从多维度分析不同的词嵌入信息对检测攻击性语言的正面影响，也未挖掘出社交用户的历史信息关联和文体特征。
[0004]本专利技...

【技术保护点】

【技术特征摘要】
1.一种基于多维度语义表示的攻击性评论检测方法，其特征在于，所述方法包括以下步骤：步骤1：评论文本数据采集及预处理；步骤2：文本多维度语义向量生成；步骤3：多维度语义向量交叉编码；步骤4：层级融合分类器预测攻击性检测结果。2.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤1：评论文本数据采集及预处理，具体如下：首先，通过各社交媒体平台的API采集用户评论数据，积累用户评论数据集，数据集中的每个样本包含评论内容和用户ID，接着，对数据集中每一个样本进行预处理，包括分词、替换、分割和去除操作。3.根据权利要求2所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤2：文本多维度语义向量生成，对预处理后的评论文本，从针对目标和语义内容两个维度进行全方位的深度挖掘，通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示；并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示，以此达到暗讽性文本的高准确率检测。4.根据权利要求3所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤3：多维度语义向量交叉编码，根据步骤2生成的文本词向量，采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。5.根据权利要求4所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤4：层级融合分类器预测检测结果，根据步骤3获得的目标向量和语义向量，通过层级融合分类器将维度不一致的两种向量进行融合，并最大程度还原文本初始意义，最后送入分类器里得到预测结果。6.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤2，文本多维度语义向量生成，具体如下：假设某社交平台上的用户评论数据集为D
s
＝{s1,s2,
…
,s
L
}，其中s
i
是数据集中第i个句子，L是数据集的长度，给定一个单词序列W＝{w1,w2,
…
,w
n
}表示文本句子，攻击性语言检测定义成为每个句子分配标签以区分句子是否具有攻击性；再为每个攻击性句子(OFF)分配标签指示句子是具有针对性的攻击还是非针对性的攻击，该步骤实施过程分为4个子步骤：子步骤2
‑
1，特定目标攻击向量表示，目标是指特定的个人或实体，使用ELMo和BiLSTM进行训练的命名实体识别方法，对文本进行特定目标攻击向量表示，对于输入的文本序列W＝{w1,w2,
…
,w
n
}，首先通过BIOES方法进行标注，得到标注后的字向量序列x＝{x1,x2,
…
,x
n
}，针对标注后的序列，文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征，CNN主要提取字符级别的特征，ELMO则提取词语的动态特征，最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起，形成新向量x
′
＝{x
′1,x
′2,
…
,x
′
n
}送入到BiLSTM中，BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数，并输出最优标注序列作为特定目标攻击向量表示S
T
，如公式(1)所示，其中为文本序列W中对应的第i个词的特定目标向量表示：
子步骤2
‑
2，广义目标攻击向量表示，通过一个性别去偏置模型从给定语料库中学习性别保留去偏词嵌入作为广义目标攻击向量表示G
T
，如公式(2)所示，其中为文本序列W中对应的第i个词的广义目标向量表示，子步骤2
‑
3，显式语义...

【专利技术属性】
技术研发人员：杨鹏，赵翰林，冷俊成，李文军，
申请(专利权)人：南京优慧信安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人