当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于文本语义及层次结构的社交网络欺凌检测方法技术

技术编号:32285587 阅读:10 留言:0更新日期:2022-02-12 19:53
本发明专利技术是一种文本语义及层次结构的社交网络欺凌检测方法,识别的对象是社交网络平台中的网络欺凌言论。本方法主要应用于社交网络欺凌检测领域,其核心是利用深度学习算法建立具有层次结构的社交网络欺凌检测模型,从而应用于社交网络平台中的网络欺凌言论检测。该方法的工作流程为读取大量已知标签的社交网络文本数据构成语料库,使用针对性的GloVe文本词嵌入表示方法将文本内容向量化,通过类循环卷积神经网络捕获文本的语义和上下文依赖特征,最后引入层次注意力网络进行社交网络欺凌检测。本方法设计实现了具有强语义学习能力和上下文关系捕获能力的社交网络文本的层次化检测模型,为跨语言、跨平台社交网络欺凌检测提供了新的解决方法。提供了新的解决方法。

【技术实现步骤摘要】
一种基于文本语义及层次结构的社交网络欺凌检测方法


[0001]本专利技术涉及社交网络欺凌检测领域与自然语言处理领域,主要核心是采集多源社交网络平台的推文数据,利用类类循环卷积神经网络对推文构建特征,并训练层次注意力网络模型,最后使用模型检测社交网络欺凌。

技术介绍

[0002]互联网技术发展至今,早已融入绝大部分人的生活,和人们的日常生活密不可分。社交活动伴随着社交网络在互联网领域的流行,人们越来越喜欢在社交平台上进行交流沟通,与此同时,网络欺凌的泛滥也越专利技术显。作为社交网络普遍存在的问题现象之一,网络欺凌通常是指人们在网络上传播攻击、侮辱性内容,给他人造成极大伤害的行为。很明显,与传统的欺凌相比,网络欺凌的定义多了“在线”的属性。发生于社交网络的欺凌对他人的伤害与传统欺凌相比有过之而无不及。由于互联网技术的便捷性与广泛性、全球庞大的网民数量、高效的交流方式和近似于“24/7/365”的在线服务,网络欺凌会比传统欺凌的发生更不受时间、地点的约束,因此更具伤害性。全球超过一半的社交媒体年轻用户曾遭受过这种长期的可能有组织性的网络欺凌。受害者可能会经历各种各样的情绪,产生诸如尴尬、抑郁、隔绝他人等负面后果,严重的网络欺凌常常会造成受害者精神错乱,影响身心健康。考虑到网络欺凌现象越来越频繁,以及网络欺凌带来的后果之严重,网络欺凌的检测与监管已十分必要。因而,研究或开发自动化的社交网络欺凌检测模型或系统及时遏制网络欺凌行为和净化网络空间环境是亟待解决的问题,且有重要的社会和学术意义。
[0003]当下,社交网络平台针对网络欺凌内容的管理大多基于关键词过滤和依靠用户举报,这类方案依赖人工介入,具有较差的时效性;另一方面,尽管针对社交网络欺凌检测的诸多方法不断被提出,但有极大的局限性:(1)基于特征工程的社交网络欺凌检测方法存在人力和时间代价的问题,分类器大多采用传统的机器学习分类器,且迁移能力较差;(2)将经典的深度学习技术直接迁移到社交网络欺凌领域的研究,展现了深度学习的潜力,但经典的深度学习模型对社交网络文本语义的提取和上下文依赖的捕获能力有限;(3)绝大部分的研究通常只在来自单一社交网络平台的数据集上进行实验,检测覆盖范围有限。
[0004]目前,社交网络中的欺凌行为愈发频繁,严重阻碍了创建绿色健康的网络空间环境的进程。这样的现状严重威胁着人们网络生活的安全以及国家网络系统的健康,当传统的特征匹配无法再提供稳定和准确的社交网络欺凌检测时,社交网络平台急需一种高效的、通用性强的社交网络欺凌方法。

技术实现思路

[0005]“一种基于文本语义及层次结构的社交网络欺凌检测方法”是为了解决社交网络
平台网络欺凌内容日益严重且普遍而提出专利技术,专利技术的目标是及时检测社交网络中的欺凌行为,从而遏制净化网络空间环境。
[0006]本专利技术创新性地提出了基于文本语义及层次结构的社交网络欺凌检测方法,其通过具有强语义学习能力和上下文关系捕获能力的社交网络文本的层次化检测模型,为互联网用户营造健康的网络环境。专利技术的内容主要分为三部分:首先,采集和收集多个平台的数据构建语料库,增强社交网络欺凌检测模型的通用性。其次,对于社交网络文本口语化、拼写错误多等噪声问题,研究更高的降低干扰。最后,有针对性识别社交网络文本,捕捉其关键信息。针对不同社交网络平台语言、长度差异等特点,本专利技术提出基于双向门控循环单元与空洞卷积相结合的词级文本序列信息捕获方法,提取社交网络文本的语义特征和上下文信息。针对社交网络文本中的噪声干扰和话锋突变类言论,本专利技术提出基于层次结构的神经网络方法,将社交网络文本按照分词、分句的层次进行欺凌内容判别。针对社交网络文本中信息重要性的分布差异,本专利技术提出基于词级和句级的多头自注意力机制,以提高模型检测性能。
[0007]为了实现这种社交网络欺凌检测方法,本专利技术爬取并收集了多个社交网络平台已知标签的文本数据构成语料库,采用基于GloVe的文本词嵌入表示方法对社交网络文本内容向量化表征,通过类循环卷积神经网络捕获文本的语义和上下文依赖特征,最后引入层次注意力网络进行社交网络欺凌检测。整个技术框架分为数据准备模块,文本序列分词、分句和词嵌入模块和社交网络欺凌检测模块,实现具有较好的场景迁移能力的检测模型。本专利技术最终实现了一种方法,能够对社交网络平台用户提供高效的网络欺凌防护,拥有着极高的检测准确率。
附图说明
[0008]从下面结合附图的详细描述,可以更加清楚地理解本专利技术的目标、实现方法、优点以及特性,其中。
[0009]图1是专利技术的方法流程框架;图2是数据准备模块的工作流程;图3是文本序列分词、分句和词嵌入模块的工作流程;图4是社交网络文本示例;图5是社交网络欺凌检测模块的结构图。
具体实施方式
[0010]本专利技术主要用于社交网络欺凌检测,检测的对象是社交网络平台中的网络欺凌言论。因此,从多个社交网络平台采集并收集已知标签的文本数据作为原始数据,经过向量化、分词、分句以及训练后,获得最终的社交网络欺凌检测模型。专利技术的方法层级框架如图 1所示。
[0011]专利技术的整体框架自上而下一共包含三个模块:数据准备模块、文本序列分词分句和词嵌入模块和社交网络欺凌检测模块。框架具有模块性,各模块功能互不相同,数据流自上向下传输,且每一模块的输入都来源于上一模块的输出。顶部的数据准备模块的输入是公开的社交网络文本和需要采集的数据id,文本序列分词分句和词嵌入模块的输入是经过
预处理后的英文语料库和中文语料库,社交网络欺凌检测模块的输入是社交网络平台的文本。下面对每一模块进行详细说明。
[0012]数据准备模块主要负责数据采集和数据预处理工作,其工作流程如图2所示。数据从来源的角度可分为两类,一类是出于隐私保护的考虑只公开了的数据id(如推文id),需要通过API获取或编写爬虫获取。另一类是包含社交网络文本的公开数据,可以直接下载得到。数据采集完成后,对其进行预处理后构成英文和中文语料库,预处理方式为文本处理。
[0013]文本序列分词分句和词嵌入模块主要负责对文本进行分词、分句和初始化权重操作,以方便输入模型,其工作流程如图3所示。对于英文语料库,英文本身有空格作为分词,分句由nltk工具包中的分句函数实现,并使用GloVe预训练词向量进行权重初始化。对于中文语料库,分句的实现由自定义的基于标点符号的分句函数完成,所以应当先进行分句再分词,此外,对中文文本序列本文使用随机初始化权重。
[0014]社交网络文本分句示例如图4所示,将长句以标点符号进行分隔得到短句。
[0015]社交网络欺凌检测模块是提出的神经网络模型核心实现,向量化后的文本序列将输入到此模块中,进行模型的训练和预测,其工作流程如图5所示。本模块以社交网络平台的文本作为输入,向量化表示文本是首要操作,在嵌入层以Glove预训练词汇集为权重进行词嵌入。嵌入完成的文本向量表示被输入到Bi

GRU和空洞卷积组成的词序列编码层中,社交网络平台的文本在词级序列嵌入层被充分捕获其上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本语义特征及层次结构的社交网络欺凌检测方法,其特征在于,所述方法包括如下步骤:A、在数据准备模块,采集并收集多个社交网络平台的社交网络文本数据构成语料库,并将其预处理为规定的统一文本格式;B、在文本序列分词分句和词嵌入模块,对社交网络文本进行分词、分句和初始化权重,以便于下一步输入到检测模型;C、在社交网络欺凌检测模块,接收获得的向量化文本序列和初始化单词权重,输入到检测模型中进行社交网络欺凌检测。2.根据权利要求1所述的一种基于文本语义特征及层次结构的社交网络欺凌检测方法,其特征在于:所述的步骤A中采集并收集构建的语料库包含中、英文两种类别语言文本数据;使用数据集包括两个英文Twitter数据集、一个英文维基百科讨论数据集和一个中文新浪微博数据集;语料库存在类别不平衡现象以便检验模型效果。3.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:许益家方勇刘中临羊少帅赵志英
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1