一种检测机器生成中文文本的方法、系统、终端及介质技术方案

技术编号：38275125 阅读：12 留言：0更新日期：2023-07-27 10:27

本发明专利技术公开了一种检测机器生成中文文本的方法，包括：将待检测中文文本按照设定步长进行切分得到N个文本段落的列表；遍历N个文本段落的列表，对每个文本段落以设定的采样率进行采样，采样M次进行掩码得到M个有掩码文本段落，将M个有掩码文本段落依次输入T5模型中解码，得到无掩码文本段落列表；根据每个文本段落的负对数似然函数值分数和每个元素的负对数似然函数值分数计算出每个文本段落的置信度分数；将置信度分数与设定的阈值进行比较，判定该文本段落为人工撰写或机器生成，将平均置信度分数与设定的阈值进行比较，判定待测中文文本为机器生成或人工撰写。该方法实施简单，能快速、准确地检测出中文文本是否由机器生成。生成。生成。

全部详细技术资料下载

【技术实现步骤摘要】
一种检测机器生成中文文本的方法、系统、终端及介质

[0001]本专利技术涉及计算机软件
，具体涉及一种检测机器生成中文文本的方法、系统、终端及介质。

技术介绍

[0002]如今随着自然语言处理技术的高速发展，大型语言模型在人们的生活和工作中应用的越来越多，例如人们运用ChatGPT生成广告文案，学生用ChatGPT来生成作文，记者用来生成新闻等，基于大型语言模型的文本生成越来越常见，但是这也给社会造成了一定的困扰，例如老师无法判断学生的作业是否是机器生成的，评委无法判断投稿人提交的论文是否是机器生成。因此，专利技术一种检测中文文本是否是机器生成的方法是很有必要的。目前已有的检测技术方法如下：
[0003]1、采用统计学习方法，分析机器生成的文本和人工撰写的文本的区别，例如统计困惑度，tf
‑
idf等，分别分析机器生成文本和人工撰写文本的特征指标差异，对比分析得出结论，然而，此类方法大多准确率偏低，找到一个有效特征是很不容易的。
[0004]2、采用神经网络建模方法，基于收集的机器生成的文本和人写出的文本构建数据集，采用神经网络或者传统的机器学习分类模型，例如支持向量机或者决策树等构建二分类模型。但是此类方法会随着机器生成文本越来越逼真而逐渐失效。
[0005]综上，采用神经网络建模的方式，需要构建样本，并且随着大型语言模型生成的文本越来越接近人类撰写的文本，此类方法的效果将越来越差，而采用统计分析的方法虽然不用构建用于训练模型的样本，但是需要找到有效因子，用于区分机器生...

【技术保护点】

【技术特征摘要】
1.一种检测机器生成中文文本的方法，其特征在于，包括：将待检测中文文本按照设定步长进行切分得到N个文本段落的列表；遍历N个文本段落的列表，对每个文本段落以设定的采样率进行采样，采样M次进行掩码得到M个有掩码文本段落，将M个有掩码文本段落依次输入T5模型中解码，得到无掩码文本段落列表；计算出每个文本段落的负对数似然函数值分数，计算出无掩码文本段落列表对应的每个元素的负对数似然函数值分数，根据每个文本段落的负对数似然函数值分数和每个元素的负对数似然函数值分数计算出每个文本段落的置信度分数；将所述置信度分数与设定的阈值进行比较，若大于，则判定该文本段落为机器生成，若小于或等于，则判定该文本段落为人工撰写，计算N个文本段落的平均置信度分数，将所述平均置信度分数与设定的阈值进行比较，若大于，则判定所述待测中文文本为机器生成，若小于或等于，则判定所述待测中文文本为人工撰写。2.如权利要求1所述的方法，其特征在于，所述方法还包括判断文本段落为人工撰写的概率，具体方法包括：将所述设定的阈值与置信度分数进行相减得到差值，用差值计算标准正态分布的累计密度函数，所述标准正态分布的累计密度函数作为判定文本段落为人工撰写对应的概率。3.如权利要求1所述的方法，其特征在于，所述方法还包括判断待测中文文本为人工撰写的概率，具体方法包括：将所述设定的阈值与平均置信度分数相减得到差值，用差值计算标准正态分布的累计密度函数，所述标准正态分布的累计密度函数作为判定文本段落为人工撰写对应的概率。4.如权利要求1所述的方法，其特征在于，所述计算每个文本段落的负对数似然函数值分数的具体方法包括：将文本段落和标签同时输入GPT2模型，计算反向传播的误差值，对误差值取负值得到负对数似然函数值分数。5.一种检测机器生成中文文本的系统，其特征在于，包括：原文分割模块、掩码解码模块、置信度分数计算模块和判别模块，其中，所述原文分割模块用于将待检测中文文本按照设定步长进行切分得到N个文本段落的列表；所述掩码解码模块用于遍历N个文本段落的列表，对每个文本段落以设定的采样率进行采样，采样M次进行掩码得到M个有掩码文本段落，将M个有...

【专利技术属性】
技术研发人员：陈旭阳，杨旭川，刘琛，
申请(专利权)人：重庆觉晓科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人