一种基于预训练语言模型的中文点击诱饵检测方法技术

技术编号：39679018 阅读：13 留言：0更新日期：2023-12-11 18:56

本发明专利技术公开了自然语言处理研究领域的一种基于预训练语言模型的中文点击诱饵检测方法，主要包括在预训练语言模型中处理输入，对输入进行编码，将其转换成模型所需要的编码格式；之后构建

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练语言模型的中文点击诱饵检测方法

[0001]本专利技术涉及自然语言处理研究领域，特别涉及一种基于预训练语言模型的中文点击诱饵检测方法
。

技术介绍

[0002]随着互联网的迅速发展以及各大自媒体竞争的激烈，为了获取更多的用户点击量与浏览量，使得网络新闻的标题逐渐背离其初衷，与其内容严重不符，这样的点击诱饵现象扭曲了新闻事实，给大众带来严重的困扰
。
[0003]目前，国内外学者针对点击诱饵检测已经做了很多研究，主要的检测算法可以分为基于词法相似性的算法
、
基于传统机器学习的算法和基于深度学习的算法
。
[0004]上述的三类检测点击诱饵的方法已经取得了一定的成果，但是仍然难以满足庞杂繁多的点击诱饵检测任务
。
其中基于词法相似性的检测算法普遍存在一种问题，部分新闻标题虽然存在夸张的成分，但是组成标题的单词与内容之间仍然存在着语义联系，这就很容易误导检测结果；另外该种方法对于新闻的主题句提取也是一个难点，需要耗费大量的时间资源，且准确率不高；基于传统机器学习的算法虽然能够有效地检测出点击诱饵，但是当面对不同的领域时需要重新定义特征，并且需要完成大量的特征工程任务，在检测常规的新闻标题时结果不一定准确，同时需要耗费大量的时间成本；利用卷积神经网络模型检测虚假新闻的方法虽然有一定的准确度，但是需要大量的标注数据进行训练，在实际应用中训练样本较少的情况下无法准确地检测出点击诱饵，这些方法在中文点击诱饵检测领域中并不能很好地适用
。...

【技术保护点】

【技术特征摘要】
1.
一种基于预训练语言模型的中文点击诱饵检测方法，其特征在于，包括如下步骤：步骤1：在预训练语言模型中处理输入，对输入进行编码，将其转换成模型所需要的编码格式；步骤2：构建
BERT
模型的嵌入层，将步骤1得到的序列编码转换成连续的
N
维空间向量，整个嵌入层包括三个组件，分别为嵌入变换
、
层标准化和随机失活；步骤3：构建编码器，并将步骤2中嵌入层输出的隐状态进行非线性的表示，通过预训练方式训练模型，使用
MLM
任务提取其中的特征；步骤4：通过
softmax
分类器在中文点击诱饵数据集上进行分类，得到分类结果
。2.
根据权利要求1所述的一种基于预训练语言模型的中文点击诱饵检测方法，其特征在于，所述步骤1具体包括：步骤
1.1
：使用标记器
Tokenizer
标记序列，对整个句子进行基于规则的标记化，并以单个汉字作为构成文本的基本单位，通过使用辅助标记
[CLS]
和
[SEP]
分别标记句子的开始和分隔，用
[PAD]
标记整个序列的末尾；步骤
1.2
：在分隔完成后，
BERT
模型会将每一个空格分隔的字符都看作是一个标记，再由标记器
Tokenizer
将其映射成由整数组成的编码，包括标记编码
、
位置编码
、
句子位置编码以及注意力编码
。3.
根据权利要求1所述的一种基于预训练语言模型的中文点击诱饵检测方法，其特征在于，所述步骤2具体包括：步骤
2.1
：嵌入变换是通过线性变换将向量转换成低维且稠密的向量，假设
n
为
t
的编码，通常是指词汇中的编号，
W
是一个
V
行
H
列的矩阵，
V
表示词汇表的大小，
H
表示词嵌入的长度，则
t
的嵌入
e
可以表示为如
(1)
所示，
e
＝
W
n
(1)
，此时，可以将得到的序列表示成一个编码向量；步骤
2.2
：层标准化，假设输入的词嵌入为
e
＝
[x0,x1,...,x
H
‑1],
其中，
x
k
为
e
的第
k
维的分量，
H
是词嵌入的长度，由此可以得到层标准化，如
(2)
所示，其中，
y
k
是输出，
μ
和
σ2分别是均值和方差，
ε
是一个很小的常数，用于避免在计算分母时除以零的情况，
sqrt(
σ2+
ε
)
表示计算方差的平方根，
α
k
...

【专利技术属性】
技术研发人员：朱毅，汪野，穆建媛，周鑫柯，
申请(专利权)人：扬州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人