一种基于对比学习的文本检测方法及系统技术方案

技术编号：39585277 阅读：9 留言：0更新日期：2023-12-03 19:37

本发明专利技术公开了一种基于对比学习的文本检测方法及系统，该方法包括：利用非自回归预训练模型对句子进行编码，得到文本表示信息；获取依赖句法信息，并基于依赖句法信息对文本表示信息进行对比学习，得到学习完成的文本表示信息；对学习完成的文本表示信息进行文本检测，得到预测结果；根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型；利用优化的检测模型进行文本检测，得到检测结果

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对比学习的文本检测方法及系统

[0001]本专利技术涉及深度学习
，尤其涉及一种基于对比学习的文本检测方法及系统
。

技术介绍

[0002]机器生成的文本越来越难以与人工编写的文本区分开来
。
强大的开源模型免费提供，使生成模型的访问变得民主化的工具正在激增，
ChatGPT
就是这些趋势的缩影
。
最先进的自然语言生成
(NLG)
系统的巨大潜力被多种滥用途径所削弱
。
[0003]对威胁模型的分析表明，检测是减少
NLG
模型滥用危害的一个有价值的工具
。
机器生成文本的检测通常被定义为一个二元分类问题，在该问题中，分类器被训练来区分机器生成文本和人类生成文本的样本
。
[0004]目前自动文本识别模型主要采用基于特征的方法和基于神经网络的方法，然而，尽管基于特征的方法可以捕捉文本的句法特征，但它在一定程度上严重依赖于语言学知识，需要更多的样本才能使更广泛的统计趋势变得清晰，导致语言的可迁移性较差；基于神经网络的方法表现出强大的文本表示能力，但不太善于捕捉句法特征；因此，现未有一种基于神经网络的方法能够显式地捕捉句法特征，识别出机器生成文本和人类生成文本
。

技术实现思路

[0005]为了解决上述技术问题，本专利技术的目标是提供一种基于对比学习的文本检测方法及系统，能够显式地捕捉句法特征，准确识别出机器生成文本和人类生成文本
。/>[0006]本专利技术所采用的第一技术方案是：一种基于对比学习的文本检测方法，包括以下步骤：
[0007]利用非自回归预训练模型对句子进行编码，得到语义空间的文本表示信息；
[0008]获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息；
[0009]对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果；
[0010]根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型；
[0011]利用优化的检测模型进行文本检测，得到检测结果
。
[0012]进一步，所述获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息这一步骤，其具体包括：
[0013]提取句子的依赖句法信息，并生成依赖句法树；
[0014]利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离，得到学习完成的语义空间的文本表示信息
。
[0015]通过该优选步骤，确保了样本在语义空间中的分布与依赖句法树的形状一致，使自动文本的语义空间与人工书写的文本的语义更容易区分，以克服自动文本识别的困难
。
[0016]进一步，所述对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果这一步骤，其具体包括：
[0017]提取学习完成的语义空间的文本表示信息中与标签相关的文本表示信息，得到句子的整体特征信息；
[0018]将句子的整体特征信息馈送到线性分类器中进行分类，得到预测结果
。
[0019]通过该优选步骤，从学习完成的语义空间的文本表示信息中筛选出能够代表句子整体特征的文本表示信息，降低了文本检测成本
。
[0020]进一步，所述根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型这一步骤，其具体包括：
[0021]根据预测结果和真实标签计算非自回归预训练模型的损失；
[0022]所述非自回归预训练模型的损失包括交叉熵损失和序列的整体对比损失；
[0023]以
Adam
为优化器，基于非自回归预训练模型的损失进行反向传播，得到优化的检测模型
。
[0024]通过该优选步骤，完成对非自回归预训练模型的训练优化
。
[0025]进一步，所述序列的整体对比损失，其表达式如下：
[0026][0027]其中，
L
sbc
表示序列的整体对比损失函数，表示第
i
个序列令牌的对比损失，
n
表示序列中令牌的数量，
P
表示第
i
个序列令牌的正样本集，
I
表示句子序列中标记的下标列表，
sim(
·
)
表示余弦相似性函数，
h
i
表示第
i
个序列令牌编码后的语义空间的文本表示信息，
h
p
表示第
p
个序列令牌编码后的语义空间的文本表示信息，
h
k
表示第
k
个序列令牌编码后的语义空间的文本表示信息，
τ
表示温度超参数
。
[0028]通过该优选步骤，最大限度地减少神经网络模型的损失，使模型的检测准确率提高
。
[0029]进一步，所述预测结果，其表达式如下：
[0030]y
＝
softmax(W
T
·
h
[CLS]+b)
[0031]其中，
y
表示预测结果，即预测概率，
W
和
b
表示可学习的参数，
h
表示学习完成的神经网络模型的语义空间的文本表示信息，
CLS
表示标签符号
。
[0032]本专利技术所采用的第二技术方案是：一种基于对比学习的文本检测系统，包括：
[0033]文本编码模块，利用非自回归预训练模型对句子进行编码，得到语义空间的文本表示信息；
[0034]对比学习模块，用于获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息；
[0035]文本检测模块，用于对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果；
所示
。
[0052]S2.2、
利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离，得到学习完成的语义空间的文本表示信息
。
[0053]具体地，参照图4，与传统的基于特征提取的方法不同，我们不直接提取句法特征，而是利用句法树的信息来改变语义空间中的文本表示，提出了一种句法对比学习，该句法对比学习发生在
XLM RoBERTa
模型内，其目的是在进行文本检测前使输入模型的语义空间的文本表示信息学习到自动文本的语义空间与人工书写的文本的语义空间的差异，通过在依赖句法树上考虑令牌之间的依赖性来减少语义空间中每个令牌与其相关令牌之间的距离，这确保了样本在语义空间中的分布与依赖句法树的形状一致
。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于对比学习的文本检测方法，其特征在于，包括以下步骤：利用非自回归预训练模型对句子进行编码，得到语义空间的文本表示信息；获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息；对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果；根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型；利用优化的检测模型进行文本检测，得到检测结果
。2.
根据权利要求1所述一种基于对比学习的文本检测方法，其特征在于，所述获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息这一步骤，其具体包括：提取句子的依赖句法信息，并生成依赖句法树；利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离，得到学习完成的语义空间的文本表示信息
。3.
根据权利要求1所述一种基于对比学习的文本检测方法，其特征在于，所述对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果这一步骤，其具体包括：提取学习完成的语义空间的文本表示信息中与标签相关的文本表示信息，得到句子的整体特征信息；将句子的整体特征信息馈送到线性分类器中进行分类，得到预测结果
。4.
根据权利要求1所述一种基于对比学习的文本检测方法，其特征在于，所述根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型这一步骤，其具体包括：根据预测结果和真实标签计算非自回归预训练模型的损失；所述非自回归预训练模型的损失包括交叉熵损失和序列的整体对比损失；以
Adam
为优化器，基于非自回归预训练模型的损失进行反向传播，得到优化的检测模型
。5.
根据权利要求4所述一种基于对比学习的文本检测方法，其特征在于，所述序列的整体对比损失，其表达式如下：体对比损失，其表达式如下：其中，
L
sbc
表示序列的整体对比损失函数，表...

【专利技术属性】
技术研发人员：林大彬，李玲宝，侯洁琳，李喜炼，林楠铠，
申请(专利权)人：广州木木信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人