当前位置: 首页 > 专利查询>扬州大学专利>正文

一种仅利用标题进行提示学习的点击诱饵检测方法技术

技术编号:39437352 阅读:35 留言:0更新日期:2023-11-19 16:20
本发明专利技术公开了自然语言处理研究领域的一种仅利用标题进行提示学习的点击诱饵检测方法,包括:1.选择合适的预训练语言模型作为主干,构建提示学习中的标签词和模板;2.通过五种优化策略对提示学习中的标签词进行优化,利用扩展后的标签词,将分类任务转化为类别标签词的概率计算问题;3.将输入文本与预设提示模板构建成带有mask的提示文本,作为模型的输入,利用优化后的标签词进行点击诱饵检测;4.最终将每个标签词上预测的概率映射到对应的类别中,得到该标签最终的预测分数作为分类结果;本发明专利技术使用五种优化策略筛选提示学习标签词,可以利用较少的数据来获得更准确的检测结果,大大减少了模型的训练成本,具有较高的实用性。用性。用性。

【技术实现步骤摘要】
一种仅利用标题进行提示学习的点击诱饵检测方法


[0001]本专利技术涉及自然语言处理研究领域,特别涉及一种仅利用标题进行提示学习的点击诱饵检测方法。

技术介绍

[0002]随着互联网的迅速发展,对于电子商务等大多数在线服务来说,更多的点击量和网络流量意味着更多的利润和商业收入,因此,许多内容生产者和发布者用一些噱头和耸人听闻的新闻标题诱导和欺骗用户点击,这被称为点击诱饵。
[0003]目前,国内外学者针对点击诱饵检测已经做了很多研究,包括基于特征工程的检测算法、基于深度学习中神经网络的检测算法和基于预训练语言模型的检测算法。
[0004]上述的三类检测点击诱饵的方法已经取得了一定的成果,但是仍然难以满足如今的检测任务。其中基于特征工程的检测算法需要专家知识进行特征选择,一些手工生成的特征在表示语义信息方面会受到限制,从而影响最终的检测效果;基于深度学习中神经网络的检测算法虽然能够有效地检测出点击,但是需要大量的标注数据进行训练,在实际应用中训练样本较少的情况下无法准确的检测出点击诱饵;预训练语言模型已经成为了一种强大的语言理解和本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种仅利用标题进行提示学习的点击诱饵检测方法,其特征在于,包括如下步骤:步骤1:选择合适的预训练模型,将该训练模型作为主干,构建提示学习中的标签词和模板;步骤2:通过五种优化策略对类别标签词进行扩展,得到优化后标签词集;步骤3:利用扩展后的标签词,将分类任务转化为类别标签词的概率计算问题;步骤4:将每个标签词上预测的概率映射到对应的类别中,得到该标签最终的预测分数作为分类结果。2.根据权利要求1所述的一种仅利用标题进行提示学习的点击诱饵检测方法,其特征在于:所述步骤1具体包括:步骤1.1:选择RoBERTabase模型作为预训练语言模型,该模型使用动态掩码策略,每次向模型输入一个序列时都会生成新的掩码模式,在大量数据不断输入的过程中,模型会逐渐适应不同的掩码策略,学习不同的语言表征;步骤1.2:通过辅助标记[head]和[tail]来表示模板的开始和结束,将模板与原始输入的标题结合构成模型的输入,模板为“[head][placeholder:x].In summary,it was[mask].[tail]”,其中“[placeholder:x]”是填充输入的新闻标题的位置。3.根据权利要求1所述的一种仅利用标题进行提示学习的点击诱饵检测方法,其特征在于:所述步骤2具体包括:步骤2.1:在标签词的扩展中,和具体的标签相联系的特殊类别V
y
将被扩展,V1={clickbait}可被扩展为V1={clickbait,hyperlink,misleading,

};步骤2.2:在标签词的扩展中,选择点击诱饵和非点击诱饵的标签类名作为在Probase中进行概念搜索的初始词,从Probase的概率检索排序结果中选取N个概念,记为N(v);然后,计算嵌入空间中的标签类名y与扩展的标签词集之间的距离dist(V
y
,y),对于所有的输入x
i
,{N1,

,N
i
,

,N
n
}是经过概念检索得到的相似读排序结果,选取其中的前M个词作为扩展的标签词集;步骤2.3:得到上述的标签词集后,通过四种优化策略进一步筛选标签词,包括利用BERT预测扩展词填充在mask位置...

【专利技术属性】
技术研发人员:朱毅汪野穆建媛周鑫柯
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1