【技术实现步骤摘要】
一种基于预训练语言模型的中文点击诱饵检测方法
[0001]本专利技术涉及自然语言处理研究领域,特别涉及一种基于预训练语言模型的中文点击诱饵检测方法
。
技术介绍
[0002]随着互联网的迅速发展以及各大自媒体竞争的激烈,为了获取更多的用户点击量与浏览量,使得网络新闻的标题逐渐背离其初衷,与其内容严重不符,这样的点击诱饵现象扭曲了新闻事实,给大众带来严重的困扰
。
[0003]目前,国内外学者针对点击诱饵检测已经做了很多研究,主要的检测算法可以分为基于词法相似性的算法
、
基于传统机器学习的算法和基于深度学习的算法
。
[0004]上述的三类检测点击诱饵的方法已经取得了一定的成果,但是仍然难以满足庞杂繁多的点击诱饵检测任务
。
其中基于词法相似性的检测算法普遍存在一种问题,部分新闻标题虽然存在夸张的成分,但是组成标题的单词与内容之间仍然存在着语义联系,这就很容易误导检测结果;另外该种方法对于新闻的主题句提取也是一个难点,需要耗费大量的时间资源,且准确率不高;基于传统机器学习的算法虽然能够有效地检测出点击诱饵,但是当面对不同的领域时需要重新定义特征,并且需要完成大量的特征工程任务,在检测常规的新闻标题时结果不一定准确,同时需要耗费大量的时间成本;利用卷积神经网络模型检测虚假新闻的方法虽然有一定的准确度,但是需要大量的标注数据进行训练,在实际应用中训练样本较少的情况下无法准确地检测出点击诱饵,这些方法在中文点击诱饵检测领域中并不能很好地适用
。 ...
【技术保护点】
【技术特征摘要】
1.
一种基于预训练语言模型的中文点击诱饵检测方法,其特征在于,包括如下步骤:步骤1:在预训练语言模型中处理输入,对输入进行编码,将其转换成模型所需要的编码格式;步骤2:构建
BERT
模型的嵌入层,将步骤1得到的序列编码转换成连续的
N
维空间向量,整个嵌入层包括三个组件,分别为嵌入变换
、
层标准化和随机失活;步骤3:构建编码器,并将步骤2中嵌入层输出的隐状态进行非线性的表示,通过预训练方式训练模型,使用
MLM
任务提取其中的特征;步骤4:通过
softmax
分类器在中文点击诱饵数据集上进行分类,得到分类结果
。2.
根据权利要求1所述的一种基于预训练语言模型的中文点击诱饵检测方法,其特征在于,所述步骤1具体包括:步骤
1.1
:使用标记器
Tokenizer
标记序列,对整个句子进行基于规则的标记化,并以单个汉字作为构成文本的基本单位,通过使用辅助标记
[CLS]
和
[SEP]
分别标记句子的开始和分隔,用
[PAD]
标记整个序列的末尾;步骤
1.2
:在分隔完成后,
BERT
模型会将每一个空格分隔的字符都看作是一个标记,再由标记器
Tokenizer
将其映射成由整数组成的编码,包括标记编码
、
位置编码
、
句子位置编码以及注意力编码
。3.
根据权利要求1所述的一种基于预训练语言模型的中文点击诱饵检测方法,其特征在于,所述步骤2具体包括:步骤
2.1
:嵌入变换是通过线性变换将向量转换成低维且稠密的向量,假设
n
为
t
的编码,通常是指词汇中的编号,
W
是一个
V
行
H
列的矩阵,
V
表示词汇表的大小,
H
表示词嵌入的长度,则
t
的嵌入
e
可以表示为如
(1)
所示,
e
=
W
n
(1)
,此时,可以将得到的序列表示成一个编码向量;步骤
2.2
:层标准化,假设输入的词嵌入为
e
=
[x0,x1,...,x
H
‑1],
其中,
x
k
为
e
的第
k
维的分量,
H
是词嵌入的长度,由此可以得到层标准化,如
(2)
所示,其中,
y
k
是输出,
μ
和
σ2分别是均值和方差,
ε
是一个很小的常数,用于避免在计算分母时除以零的情况,
sqrt(
σ2+
ε
)
表示计算方差的平方根,
α
k
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。