当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于预训练语言模型的中文点击诱饵检测方法技术

技术编号:39679018 阅读:13 留言:0更新日期:2023-12-11 18:56
本发明专利技术公开了自然语言处理研究领域的一种基于预训练语言模型的中文点击诱饵检测方法,主要包括在预训练语言模型中处理输入,对输入进行编码,将其转换成模型所需要的编码格式;之后构建

【技术实现步骤摘要】
一种基于预训练语言模型的中文点击诱饵检测方法


[0001]本专利技术涉及自然语言处理研究领域,特别涉及一种基于预训练语言模型的中文点击诱饵检测方法


技术介绍

[0002]随着互联网的迅速发展以及各大自媒体竞争的激烈,为了获取更多的用户点击量与浏览量,使得网络新闻的标题逐渐背离其初衷,与其内容严重不符,这样的点击诱饵现象扭曲了新闻事实,给大众带来严重的困扰

[0003]目前,国内外学者针对点击诱饵检测已经做了很多研究,主要的检测算法可以分为基于词法相似性的算法

基于传统机器学习的算法和基于深度学习的算法

[0004]上述的三类检测点击诱饵的方法已经取得了一定的成果,但是仍然难以满足庞杂繁多的点击诱饵检测任务

其中基于词法相似性的检测算法普遍存在一种问题,部分新闻标题虽然存在夸张的成分,但是组成标题的单词与内容之间仍然存在着语义联系,这就很容易误导检测结果;另外该种方法对于新闻的主题句提取也是一个难点,需要耗费大量的时间资源,且准确率不高;基于传统机器学习的算法虽然能够有效地检测出点击诱饵,但是当面对不同的领域时需要重新定义特征,并且需要完成大量的特征工程任务,在检测常规的新闻标题时结果不一定准确,同时需要耗费大量的时间成本;利用卷积神经网络模型检测虚假新闻的方法虽然有一定的准确度,但是需要大量的标注数据进行训练,在实际应用中训练样本较少的情况下无法准确地检测出点击诱饵,这些方法在中文点击诱饵检测领域中并不能很好地适用


技术实现思路

[0005]本专利技术的目的是克服现有技术中的缺陷,提供一种基于预训练语言模型的中文点击诱饵检测方法,通过基于全词覆盖的中文
BERT
预训练语言模型来抽取有用的特征,检测点击诱饵,提高分类准确度

[0006]本专利技术的目的是这样实现的:一种基于预训练语言模型的中文点击诱饵检测方法,包括如下步骤:
[0007]步骤1:在预训练语言模型中处理输入,对输入进行编码,将其转换成模型所需要的编码格式;
[0008]步骤2:构建
BERT
模型的嵌入层,将步骤1得到的序列编码转换成连续的
N
维空间向量,整个嵌入层包括三个组件,分别为嵌入变换

层标准化和随机失活;
[0009]步骤3:构建编码器,并将步骤2中嵌入层输出的隐状态进行非线性的表示,通过预训练方式训练模型,使用
MLM
任务提取其中的特征;
[0010]步骤4:通过
softmax
分类器在中文点击诱饵数据集上进行分类,得到分类结果

[0011]进一步地,所述步骤1具体包括:
[0012]步骤
1.1
:使用标记器
Tokenizer
标记序列,对整个句子进行基于规则的标记化,并
以单个汉字作为构成文本的基本单位,通过使用辅助标记
[CLS]和
[SEP]分别标记句子的开始和分隔,用
[PAD]标记整个序列的末尾;例如将一条新闻标题
X
输入
BERT
模型时,
BERT
模型会先用标记器
(Tokenizer)
标记序列,对整个句子进行基于规则的标记化,并以单个汉字作为构成文本的基本单位,上述示例会被分隔成“[CLS]X[SEP][PAD]”。
[0013]步骤
1.2
:在分隔完成后,
BERT
模型会将每一个空格分隔的字符都看作是一个标记,再由标记器
Tokenizer
将其映射成由整数组成的编码,包括标记编码

位置编码

句子位置编码以及注意力编码

[0014]进一步地,所述步骤2具体包括:
[0015]步骤
2.1
:嵌入变换是通过线性变换将向量转换成低维且稠密的向量,假设
n

t
的编码,通常是指词汇中的编号,
W
是一个
V

H
列的矩阵,
V
表示词汇表的大小,
H
表示词嵌入的长度,则
t
的嵌入
e
可以表示为如
(1)
所示,
[0016]e

W
n
(1)

[0017]此时,可以将得到的序列表示成一个编码向量

[0018]步骤
2.2
:层标准化,假设输入的词嵌入为
e

[x0,
x1,
...

x
H
‑1],其中,
x
k

e
的第
k
维的分量,
H
是词嵌入的长度,由此可以得到层标准化,如
(2)
所示,
[0019][0020]其中,
y
k
是输出,
μ

σ2分别是均值和方差,
ε
是一个很小的常数,用于避免在计算分母时除以零的情况,
sqrt(
σ2+
ε
)
表示计算方差的平方根,
α
k

β
k
为学习得到的参数,用于防止模型的表示能力退化

[0021]步骤
2.3
:随机失活是深度学习领域中常用的正则化
(Regularization)
方法,用于防止模型过拟合,其输出值
y

(3)
所示,
[0022][0023]其中,
P∈[0

1],表示每个神经元在训练过程中被随机失活的概率,随机置为0和1之间的数值,
x
是词嵌入中的一维分量,
r∈[0

1],是一个随机数,由此得到编码的连续多维空间向量

[0024]进一步地,所述步骤3具体包括:
[0025]步骤
3.1
:预训练方式训练模型为基于全词覆盖的中文
BERT
预训练语言模型,使用该模型将组成同一个词的汉字全部用
[MASK]替换,完成预训练任务

[0026]步骤
3.2

MLM
任务通过在句子中随即遮盖一些词语,利用上下文的语义来预测该位置上的正确单词,损失函数主要由
MLM
任务的单词级别分类任务和句子级别的分类任务组成,在分类任务中通常使用交叉熵
(CrossEntropy)
作为损失函数,损失函数定义如<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于预训练语言模型的中文点击诱饵检测方法,其特征在于,包括如下步骤:步骤1:在预训练语言模型中处理输入,对输入进行编码,将其转换成模型所需要的编码格式;步骤2:构建
BERT
模型的嵌入层,将步骤1得到的序列编码转换成连续的
N
维空间向量,整个嵌入层包括三个组件,分别为嵌入变换

层标准化和随机失活;步骤3:构建编码器,并将步骤2中嵌入层输出的隐状态进行非线性的表示,通过预训练方式训练模型,使用
MLM
任务提取其中的特征;步骤4:通过
softmax
分类器在中文点击诱饵数据集上进行分类,得到分类结果
。2.
根据权利要求1所述的一种基于预训练语言模型的中文点击诱饵检测方法,其特征在于,所述步骤1具体包括:步骤
1.1
:使用标记器
Tokenizer
标记序列,对整个句子进行基于规则的标记化,并以单个汉字作为构成文本的基本单位,通过使用辅助标记
[CLS]

[SEP]
分别标记句子的开始和分隔,用
[PAD]
标记整个序列的末尾;步骤
1.2
:在分隔完成后,
BERT
模型会将每一个空格分隔的字符都看作是一个标记,再由标记器
Tokenizer
将其映射成由整数组成的编码,包括标记编码

位置编码

句子位置编码以及注意力编码
。3.
根据权利要求1所述的一种基于预训练语言模型的中文点击诱饵检测方法,其特征在于,所述步骤2具体包括:步骤
2.1
:嵌入变换是通过线性变换将向量转换成低维且稠密的向量,假设
n

t
的编码,通常是指词汇中的编号,
W
是一个
V

H
列的矩阵,
V
表示词汇表的大小,
H
表示词嵌入的长度,则
t
的嵌入
e
可以表示为如
(1)
所示,
e

W
n
(1)
,此时,可以将得到的序列表示成一个编码向量;步骤
2.2
:层标准化,假设输入的词嵌入为
e

[x0,x1,...,x
H
‑1],
其中,
x
k

e
的第
k
维的分量,
H
是词嵌入的长度,由此可以得到层标准化,如
(2)
所示,其中,
y
k
是输出,
μ

σ2分别是均值和方差,
ε
是一个很小的常数,用于避免在计算分母时除以零的情况,
sqrt(
σ2+
ε
)
表示计算方差的平方根,
α
k
...

【专利技术属性】
技术研发人员:朱毅汪野穆建媛周鑫柯
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1