一种检测机器生成中文文本的方法、系统、终端及介质技术方案

技术编号:38275125 阅读:12 留言:0更新日期:2023-07-27 10:27
本发明专利技术公开了一种检测机器生成中文文本的方法,包括:将待检测中文文本按照设定步长进行切分得到N个文本段落的列表;遍历N个文本段落的列表,对每个文本段落以设定的采样率进行采样,采样M次进行掩码得到M个有掩码文本段落,将M个有掩码文本段落依次输入T5模型中解码,得到无掩码文本段落列表;根据每个文本段落的负对数似然函数值分数和每个元素的负对数似然函数值分数计算出每个文本段落的置信度分数;将置信度分数与设定的阈值进行比较,判定该文本段落为人工撰写或机器生成,将平均置信度分数与设定的阈值进行比较,判定待测中文文本为机器生成或人工撰写。该方法实施简单,能快速、准确地检测出中文文本是否由机器生成。生成。生成。

【技术实现步骤摘要】
一种检测机器生成中文文本的方法、系统、终端及介质


[0001]本专利技术涉及计算机软件
,具体涉及一种检测机器生成中文文本的方法、系统、终端及介质。

技术介绍

[0002]如今随着自然语言处理技术的高速发展,大型语言模型在人们的生活和工作中应用的越来越多,例如人们运用ChatGPT生成广告文案,学生用ChatGPT来生成作文,记者用来生成新闻等,基于大型语言模型的文本生成越来越常见,但是这也给社会造成了一定的困扰,例如老师无法判断学生的作业是否是机器生成的,评委无法判断投稿人提交的论文是否是机器生成。因此,专利技术一种检测中文文本是否是机器生成的方法是很有必要的。目前已有的检测技术方法如下:
[0003]1、采用统计学习方法,分析机器生成的文本和人工撰写的文本的区别,例如统计困惑度,tf

idf等,分别分析机器生成文本和人工撰写文本的特征指标差异,对比分析得出结论,然而,此类方法大多准确率偏低,找到一个有效特征是很不容易的。
[0004]2、采用神经网络建模方法,基于收集的机器生成的文本和人写出的文本构建数据集,采用神经网络或者传统的机器学习分类模型,例如支持向量机或者决策树等构建二分类模型。但是此类方法会随着机器生成文本越来越逼真而逐渐失效。
[0005]综上,采用神经网络建模的方式,需要构建样本,并且随着大型语言模型生成的文本越来越接近人类撰写的文本,此类方法的效果将越来越差,而采用统计分析的方法虽然不用构建用于训练模型的样本,但是需要找到有效因子,用于区分机器生成的文本和人工撰写的文本。

技术实现思路

[0006]针对现有技术中的缺陷,本专利技术实施例提供一种检测机器生成中文文本的方法、系统、终端及介质,能准确、高效地检测出中文文本是否由机器生成。
[0007]第一方面,本专利技术实施例提供的一种检测机器生成中文文本的方法,包括:
[0008]将待检测中文文本按照设定步长进行切分得到N个文本段落的列表;
[0009]遍历N个文本段落的列表,对每个文本段落以设定的采样率进行采样,采样M次进行掩码得到M个有掩码文本段落,将M个有掩码文本段落依次输入T5模型中解码,得到无掩码文本段落列表;
[0010]计算出每个文本段落的负对数似然函数值分数,计算出无掩码文本段落列表对应的每个元素的负对数似然函数值分数,根据每个文本段落的负对数似然函数值分数和每个元素的负对数似然函数值分数计算出每个文本段落的置信度分数;
[0011]将所述置信度分数与设定的阈值进行比较,若大于,则判定该文本段落为机器生成,若小于或等于,则判定该文本段落为人工撰写,计算N个文本段落的平均置信度分数,将所述平均置信度分数与设定的阈值进行比较,若大于,则判定所述待测中文文本为机器生
成,若小于或等于,则判定所述待测中文文本为人工撰写。
[0012]第二方面,本专利技术实施例提供的一种检测机器生成中文文本的系统,包括:原文分割模块、掩码解码模块、置信度分数计算模块和判别模块,其中,所述原文分割模块用于将待检测中文文本按照设定步长进行切分得到N个文本段落的列表;
[0013]所述掩码解码模块用于遍历N个文本段落的列表,对每个文本段落以设定的采样率进行采样,采样M次进行掩码得到M个有掩码文本段落,将M个有掩码文本段落依次输入T5模型中解码,得到无掩码文本段落列表;
[0014]所述置信度分数计算模块用于计出算每个文本段落的负对数似然函数值分数,计算出无掩码文本段落列表对应的每个元素的负对数似然函数值分数,根据每个文本段落的负对数似然函数值分数和每个元素的负对数似然函数值分数计算出每个文本段落的置信度分数;
[0015]所述判别模块将所述置信度分数与设定的阈值进行比较,若大于,则判定该文本段落为机器生成,若小于或等于,则判定该文本段落为人工撰写,计算N个文本段落的平均置信度分数,将所述平均置信度分数与设定的阈值进行比较,若大于,则判定所述待测中文文本为机器生成,若小于或等于,则判定所述待测中文文本为人工撰写。
[0016]第三方面,本专利技术实施例提供的一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器分别与输入设备、输出设备和存储器连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法。
[0017]第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。
[0018]本专利技术的有益效果:
[0019]本专利技术实施例提供的一种检测机器生成中文文本的方法,通过计算中文文本的负对数似然函数值来判断中文文本是否由机器生成,不需要构建样本训练模型来检测中文文本是否由机器生成,该方法实施简单,能快速、准确地检测出中文文本是否由机器生成。
[0020]本专利技术实施例提供一种检测机器生成中文文本系统、终端及介质,能快速、准确地检测出中文文本是否由机器生成。
附图说明
[0021]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
[0022]图1示出了本专利技术第一实施例所提供的一种检测机器生成中文文本方法的流程图;
[0023]图2示出了本专利技术另一实施例所提供的一种检测机器生成中文文本系统的结构示意图;
[0024]图3示出了本专利技术另一实施例所提供的一种智能终端的结构示意图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0027]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0028]还应当进一步理解,本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0029]如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测机器生成中文文本的方法,其特征在于,包括:将待检测中文文本按照设定步长进行切分得到N个文本段落的列表;遍历N个文本段落的列表,对每个文本段落以设定的采样率进行采样,采样M次进行掩码得到M个有掩码文本段落,将M个有掩码文本段落依次输入T5模型中解码,得到无掩码文本段落列表;计算出每个文本段落的负对数似然函数值分数,计算出无掩码文本段落列表对应的每个元素的负对数似然函数值分数,根据每个文本段落的负对数似然函数值分数和每个元素的负对数似然函数值分数计算出每个文本段落的置信度分数;将所述置信度分数与设定的阈值进行比较,若大于,则判定该文本段落为机器生成,若小于或等于,则判定该文本段落为人工撰写,计算N个文本段落的平均置信度分数,将所述平均置信度分数与设定的阈值进行比较,若大于,则判定所述待测中文文本为机器生成,若小于或等于,则判定所述待测中文文本为人工撰写。2.如权利要求1所述的方法,其特征在于,所述方法还包括判断文本段落为人工撰写的概率,具体方法包括:将所述设定的阈值与置信度分数进行相减得到差值,用差值计算标准正态分布的累计密度函数,所述标准正态分布的累计密度函数作为判定文本段落为人工撰写对应的概率。3.如权利要求1所述的方法,其特征在于,所述方法还包括判断待测中文文本为人工撰写的概率,具体方法包括:将所述设定的阈值与平均置信度分数相减得到差值,用差值计算标准正态分布的累计密度函数,所述标准正态分布的累计密度函数作为判定文本段落为人工撰写对应的概率。4.如权利要求1所述的方法,其特征在于,所述计算每个文本段落的负对数似然函数值分数的具体方法包括:将文本段落和标签同时输入GPT2模型,计算反向传播的误差值,对误差值取负值得到负对数似然函数值分数。5.一种检测机器生成中文文本的系统,其特征在于,包括:原文分割模块、掩码解码模块、置信度分数计算模块和判别模块,其中,所述原文分割模块用于将待检测中文文本按照设定步长进行切分得到N个文本段落的列表;所述掩码解码模块用于遍历N个文本段落的列表,对每个文本段落以设定的采样率进行采样,采样M次进行掩码得到M个有掩码文本段落,将M个有...

【专利技术属性】
技术研发人员:陈旭阳杨旭川刘琛
申请(专利权)人:重庆觉晓科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1