当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于监督学习的社交网络敏感委婉语检测方法技术

技术编号:37868059 阅读:21 留言:0更新日期:2023-06-15 20:57
本发明专利技术公开了一种基于监督学习的社交网络敏感委婉语检测方法,首先对某社交网络平台上的数据进行采集,包括用户评论和视频弹幕信息,然后利用敏感委婉词对数据集进行数据过滤和严格的人工标注,建立了有标注的数据集敏感委婉语数据集,最后利用基于对比学习的ConSERT框架进行句子表征,并结合Bi

【技术实现步骤摘要】
一种基于监督学习的社交网络敏感委婉语检测方法


[0001]本专利技术涉及计算机科学与技术中的网络安全
,具体为一种基于监督学习的社交网络敏感委婉语检测方法。

技术介绍

[0002]随着信息技术和移动互联网的不断发展,社交网络对人们的生活产生了越来越大的影响。社交网络已成为推动现实生活与虚拟空间融合的重要力量。互联网用户也越来越热衷于通过社交网络实现交流和信息共享。近年来国内非常流行的社交网络视频分享平台提供了用户创作平台,注册用户可以通过个人账号分享个人原创视频或转发视频,极具自由性和创新性。由于视频弹幕和评论数量众多,总体用户基数大且整体年龄较小,其内容创作容易包含涉及色情、暴力等有害内容。在社交网络视频分享平台的某些视频的评论和弹幕中,包含网络暴力、色情引诱等有害内容,不利于青少年的健康成长,也对我国的互联网内容安全造成了不良影响。虽然具有明显有害含义上的敏感内容容易被现有方法过滤,但是敏感委婉语,即通过委婉语表达敏感内容的语言,仍然大量存在于公共互联网平台。委婉语,即用来减弱或隐藏对受制于现实和互联网社会言论规范的敏感、不愉快或禁忌本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于监督学习的社交网络敏感委婉语检测方法,其特征在于,总体包括以下步骤:步骤1:数据收集与标注:采用Web爬虫,对某社交网络平台上的数据进行采集,并对采集到的数据进行数据过滤和选择,再进行人工标注,从而构建敏感委婉语数据集;步骤2:特征提取:在对输入句子进行初始化Embedding以后生成初始句向量,通过不同的数据增强方式生成句向量的不同增强版本,再使用BERT共享编码共享句向量生成参数,再采用对比学习层进行优化调整,使句向量的空间特征分布更加均匀,最终输出增强句向量;步骤3:检测模型:基于ConSERT模型以及增强句向量,并结合Bi

LSTM和注意力机制构建敏感委婉句分类检测模型,将所述增强句向量输入至敏感委婉句分类检测模型中,基于句子特征向量对社交网络平台上的敏感委婉语进行检测。2.根据权利要求1所述的基于监督学习的社交网络敏感委婉语检测方法,其特征在于,所述步骤1具体包括:步骤1.1:基于Scrapy框架设计能够支持多进程运行的Web爬虫,用于对某社交网络平台上的视频评论和弹幕进行有针对性的采集;步骤1.2:在该社交网络平台的多个频道分区,选取视频互动次数超过预定值的一个热门视频作为种子视频,进行广度优先遍历,结合视频互动次数的筛选原则进行视频选择和过滤,并不断重复进行下一次遍历,最终获得爬取数据集样本;步骤1.3:将通过恶意曲解来表达敏感内容的无害化日常词汇定义为敏感委婉词,根据句子的表达内容和上下文关系,参照现有的敏感委婉词库,对可能表达与某些敏感词实际含义相似的敏感委婉句子进行人工标注。3.根据权利要求1所述的基于监督学习的社交网络敏感委婉语检测方法,其特征在于,所述的人工标注敏感委婉句子原则具体包括:1)如果其中的敏感委婉词,按其无害化含义能够被合理解释,而按其敏感含义不能被合理解释,则该句子被视为只包含无害含义,标注为无害化句子,标签设置为0;2)如果其中的敏感委婉词,按其无害化含义不能够被合理解释,而按其敏感含义能被合理解释,则该句子被视为只包含敏感含义,标注为敏感委婉句子,标签设置为1;3)如果一个句子的语义信息只包含辅助词汇和敏感委婉词,且既能被无害化含义解释,又能被敏感含义解释,则该句子被视为同时包含敏感含义和无害含义,标注为敏感委婉句子,标签设置为1;4)如果其中的敏感委婉词,按其无害化含义不能被合理解释,并且按其敏感含义也不能被合理解释,则该句子被视为语义不清,被过滤掉,不设置标签。4.根据权利要求1所述的基于监督学习的社交网络敏感委婉语检测方法,其特征在于,所述步骤1还包括对人工标注数据集的标注效果进行评估,具体步骤为:采用两名标注者独立浏览数据集中的所有待标注句子,并且各自独立完成数据标注,通过计算Kappa系数来评估标注结果的一致性:
其中,A为第一个标注者标注的句子集合,B为第二个标注者标注的句子集合;C为第一个标注者无法判别是否为敏感委婉句的句子集合,D为第二个标注者无法判别是否为敏感委婉句的句子集合,E是所有句子的集合,|
·
|是一个集合的大小。5.根据权利要求2所述的基于监督学习的社交网络敏感委婉语检测方法,其特征在于,所述步骤2具体包括:步骤2.1:通过输入层输入经过预处理的数据文本I={I1,I2,...,I
n
};预处理后的句子I
j
包含n个字,n为设置的最大序列长度,将超过n字的部分舍去,不足则补0;步骤2.2:通过调优后的BERT模型对输入层的数据文本处理后生成初始句向量;步骤2.2.1:利用所述社交网络平台上的视频评论和弹幕数据对BERT

Base

Chinese模型进行预训练,并运用SES

Dataset数据集对该模型进行微调,得到调优后的BERT模型;步骤2.2.2:将预处理后的数据文本I={I1,I2,...,I
n
}标记化后得到标记文本I'={I
′1,I'2,...,I'
n
},将其输入至调优后的BERT模型中,进行词嵌入提取后通过平均池化,从而得到句嵌入形式的优质语义特征W={W1,W2,...,W
n
};如下式:I'=Tokenize(I)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)W=BERT(I')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)S=AveragePooling(W1,W2,...,W
n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,S为句向量;步骤2.3:通过数据增强层根据不同的数据增强策略生成用于对比学习的样本对;步骤2.4:通过对比损失层完成对比预测任务;给定一个集合包括一对正样本和对比预测任务的目的是对于一个给定的在中识别出从同一增强集合t~Τ和t'Τ中采样两个单独的数据增强算子,并应用于每个数据样本,以获得两个相关的样本对;利用得到的样本对,对一个基本编码器网络f(
·
)和一个投影神经网络g(
·
)进行训练,训练完成后,去掉投影头g(
·
),并将编码器f(
·
)和表示h用于下游任务;通过随机抽取N批样本,并且对于小批量的增强样本对,定义对比预测任务,得到2N个数据点;再给定一个正样本对,将一个小批中的其他2(N

1)增强样本视为负样本;由此得到正样本对(a,c)的损失函数的定义,即正则化温度缩放交叉熵损失函数,如下式所示:其中,1
[k≠a]
∈{0,1}是一个当且仅当k≠a时取值为1的指标函数,τ代表温度参数;sim(z
a
,z
k
)=z

z
k
/||z
a
||||z
k
||表示通过l2正则化后的z
a
和z
k
的余弦相似度,z
a
、z
c
和z
k
分别为样本a、样本c和样本k向量。6.根据权利要求5所述的基于监督学习的社交网络敏感委婉语检测方法,其特征在于,所述步骤2.3中数据增强策略包括对抗攻击,具体包括:
设θ是一个模型的参数,x是模型的输入,y是与x相关联的目标,J(θ,x,y)是用于训练神经网络的损失;将损失函数围绕θ的当前取值做线性化处理,如下式:η=εsign(

...

【专利技术属性】
技术研发人员:王海舟周罡金地陈雅宁杨菲王文贤陈兴蜀
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1