【技术实现步骤摘要】
一种基于困难样本筛选的即兴委婉语检测方法
[0001]本专利技术属于信息安全
,特别涉及一种基于困难样本筛选的即兴委婉语检测方法。
技术介绍
[0002]在暗网,尤其是匿名市场和地下论坛中(如Silkroad,Nude),不法分子在沟通交流时使用委婉语(Euphemism或称Jargon,Slang)来模糊、混淆其交流内容,从而躲避监管和审查。委婉语检测已经成为了追踪网络非法活动的重要技术手段。
[0003]目前,委婉语检测方法主要分为四种:(1)命名实体识别法:此方法把委婉语检测任务定义为命名实体识别任务,首先需要人工标注一个完整的数据集,使用完全监督算法进行序列标注训练,然后在测试集上推理,从而标注出委婉语在句子中的位置;(2)搜索引擎分析法:此方法把委婉语检测任务定义为同义词词表扩充任务,使用现有的主流搜索引擎(比如百度搜索引擎,谷歌搜索引擎等)搜索seed词语(比如已知的委婉语)后,在搜索结果页面的文本中查找出其同义词,并添加入seed词语的同义词此表中;(3)交叉语料词向量分析法:此方法需要用到两组语 ...
【技术保护点】
【技术特征摘要】
1.一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,包括以下步骤:S1、构造目标语料库,包括黑语料、白语料和包含即兴委婉语的语料;S2、对目标语料进行粗分类:S3、对粗分类结果进行细粒度筛选;S4、对粗分类结果进行重训练,获得即兴委婉语和普通委婉语的检测结果。2.根据权利要求1所述的一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,步骤S1中,所述构造目标语料库,具体包括以下步骤:首先,在Reddit论坛中选择使用委婉语的主题为blackhat、darknet、drug、silkroad、deepweb、darkmarket的六个子版块,从六个子板块中获取语料,对语料进行短语分割后作为黒语料;然后,挑选22个毒品名称作为seed,每一个seed挑选一个委婉语,每个委婉语在黒语料中人工查找20个句子,那么22个seed挑选22个委婉语,22个委婉语对应地在黑语料中人工查找440个句子,将所述440个句子中的委婉语设置为即兴委婉语,作为包含即兴委婉语的语料;接着,找到一份不包含委婉语的语料,从中随机抽取和黒语料数量相等的句子,进行短语分割后作为白语料;最后,将黒语料、包含即兴委婉语的语料以及白语料混合,构造目标语料库。3.根据权利要求2所述的一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,步骤S2中,所述对目标语料进行粗分类,具体包括以下步骤:A21、获取训练语料:使用黒语料训练一个word2vector模型,查找与seed词语的词向量余弦相似度最接近的前100个词语或短语,再找到黑语料中所述前100个词语或短语所在的句子,并给所述前100个词语或短语打上MASK;在白语料中找到相同数量的句子,并从每个句子中随机选择一个词语或短语打上MASK;将所述前100个词语或短语打上MASK的句子和同等数量的随机选择一个词语或短语打上MASK的句子作为训练语料,并将所得训练语料划分为训练集和测试集;A22、训练模型:使用训练集训练二分类模型,同时在训练过程中使用测试集在每个Epoch上进行测试,选择loss最低的checkpoint作为训练好的模型用于后续推理;A23、模型推理;对目标语料采用loss最低的checkpoint进行推理,判断目标语料句子中的MASK是否与seed词语相关,并输出推理结果。4.根据权利要求3所述的一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,步骤S3中,所述对粗分类结果进行细粒度筛选,具体包括以下步骤:A31、获取训练语料:使用目标语料训练一个word2vector模型,查找与seed词语的平均词向量余弦相似度最接近...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。