一种制造技术

技术编号:39643106 阅读:5 留言:0更新日期:2023-12-09 11:10
根据本发明专利技术实施例所提供的一种

【技术实现步骤摘要】
一种AI生成文本的检测方法、装置、介质及设备


[0001]本专利技术涉及文本处理领域,具体而言涉及一种
AI
生成文本的检测方法

装置

介质及设备


技术介绍

[0002]AI
智能生成文本技术日趋成熟,由此科研工作者或学者在需要发表论文前,都要对论文进行审核,以避免部分或全部采用
AI
智能生成的论文发表而造成较为恶劣的影响

[0003]目前,通常采用人工的方式对论文进行审核,该种方式不仅费时费力,而且审核结果受审核人员的主观影响,审核结果的准确性较低


技术实现思路

[0004]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明

本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围

[0005]第一方面,本专利技术实施例提供了一种
AI
生成文本的检测方法,包括:
[0006]获取待检测文本

文本分类模型

目标损失函数

预设字典及预测模型;
[0007]将所述待检测文本输入所述文本分类模型,得到所述待检测文本为
AI
生成文本的第一概率值;
[0008]基于所述待检测文本及所述目标损失函数,得到所述待检测文本的偏离度特征;
[0009]基于所述待检测文本

所述预测模型及所述预设字典,得到所述待检测文本的扩散度特征值;
[0010]基于所述待检测文本,得到所述待检测文本的句子长度特征及字词分布特征;
[0011]根据所述第一概率值

偏离度特征

扩散度特征值

句子长度特征及字词分布特征,判定所述待检测文本是否为
AI
生成文本

[0012]可选地,获取待检测文本

文本分类模型及预测模型之前,包括:
[0013]获取自回归网络模型;
[0014]在所述自回归网络模型的网络结构的最后添加一个线性层,以得到文本分类模型,所述线性层与输入文本的最后一位标签的特征向量连接,所述线性层的输出为大小为2的一维向量;
[0015]获取训练样本集及交叉熵损失函数,所述训练样本集包括人类撰写文本及
AI
生成文本;
[0016]随机初始化所述线性层的参数;
[0017]利用所述训练样本集及交叉熵损失函数,对所述文本分类模型进行有监督学习

[0018]可选地,所述基于所述待检测文本及所述目标损失函数,得到所述待检测文本的偏离度特征,包括:
[0019]对所述待检测文本进行切断处理,得到多个文本片段;
[0020]基于每个所述文本片段,利用所述目标损失函数,计算得到每个所述文本片段的模型偏离度

[0021]可选地,基于所述待检测文本

所述预测模型及所述预设字典,得到所述待检测文本的扩散度特征值,包括:
[0022]将每个所述文本片段输入所述预测模型,得到所述预设字典中的每个预设字,在所述文本片段的每个字位上与相应的实际字相同的预测概率值;
[0023]对每个文本片段的每个字位所得到的各预设字的预测概率值进行排序,得到排序结果;
[0024]基于所述排序结果,对每个所述文本片段中,与每个字位的实际字相同的预设字的排名进行统计,得到统计结果;
[0025]基于所述统计结果,得到扩散度特征值

[0026]可选地,所述基于所述待检测文本,得到所述待检测文本的句子长度特征,包括:
[0027]将所述待检测文本切分成多个句子;
[0028]计算每个所述句子的长度

句子长度的平均值以及句子长度的标准差

[0029]可选地,所述基于所述待检测文本,得到所述待检测文本的字词分布特征,包括:
[0030]对所述待检测文本进行分词并统计各个分词的词频;
[0031]去除分词中的停用词;
[0032]在剩余的分词中,基于各分词的词频,筛选得到预设数量的高频词;
[0033]基于各高频词的分布间隔数

间隔字数以及词频,计算高频词的分布间隔的平均值及分布间隔的平均值的平均值;
[0034]计算所述待检测文本中的指代词的频率及分布特征值

[0035]可选地,所述根据所述第一概率值

偏离度特征

扩散度特征值

句子长度特征及字词分布特征,判定所述待检测文本是否为
AI
生成文本,包括:
[0036]如果所述第一概率值满足第一约束条件,或者所述偏离度特征及所述扩散度特征值满足第二约束条件,则确定所述待检测文本为
AI
生成文本;
[0037]如果所述第一概率值不满足第一约束条件,且所述偏离度特征及所述扩散度特征值不满足第二约束条件,则在所述第一概率值满足第三约束条件且所述句子长度特征及字词分布特征满足第四约束条件的情况下,或者在所述偏离度特征及所述扩散度特征值满足第五约束条件,且所述句子长度特征及字词分布特征满足第四约束条件的情况下,确定所述待检测文本为
AI
生成文本

[0038]第二方面,本专利技术实施例提供了一种
AI
生成文本的检测装置,包括:
[0039]获取模块,用于获取待检测文本

文本分类模型

目标损失函数

预设字典及预测模型;
[0040]第一概率值确定模块,用于将所述待检测文本输入所述文本分类模型,得到所述待检测文本为
AI
生成文本的第一概率值;
[0041]偏离度特征确定模块,用于基于所述待检测文本及所述目标损失函数,得到所述待检测文本的偏离度特征;
[0042]扩散度特征值确定模块,用于基于所述待检测文本

所述预测模型及所述预设字典,得到所述待检测文本的扩散度特征值;
[0043]句子长度特征及字词分布特征确定模块,用于基于所述待检测文本,得到所述待检测文本的句子长度特征及字词分布特征;
[0044]判定模块,用于根据所述第一概率值

偏离度特征

扩散度特征值

句子长度特征及字词分布特征,判定所述待检测文本是否为
AI
生成文本

[0045]第三方面,本专利技术实施例提供了一种计算机设备,包括存储器

处理器以及存储在所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种
AI
生成文本的检测方法,其特征在于,包括:获取待检测文本

文本分类模型

目标损失函数

预设字典及预测模型;将所述待检测文本输入所述文本分类模型,得到所述待检测文本为
AI
生成文本的第一概率值;基于所述待检测文本及所述目标损失函数,得到所述待检测文本的偏离度特征;基于所述待检测文本

所述预测模型及所述预设字典,得到所述待检测文本的扩散度特征值;基于所述待检测文本,得到所述待检测文本的句子长度特征及字词分布特征;根据所述第一概率值

偏离度特征

扩散度特征值

句子长度特征及字词分布特征,判定所述待检测文本是否为
AI
生成文本
。2.
根据权利要求1所述的方法,其特征在于,获取待检测文本

文本分类模型及预测模型之前,包括:获取自回归网络模型;在所述自回归网络模型的网络结构的最后添加一个线性层,以得到文本分类模型,所述线性层与输入文本的最后一位标签的特征向量连接,所述线性层的输出为大小为2的一维向量;获取训练样本集及交叉熵损失函数,所述训练样本集包括人类撰写文本及
AI
生成文本;随机初始化所述线性层的参数;利用所述训练样本集及交叉熵损失函数,对所述文本分类模型进行有监督学习
。3.
根据权利要求1所述的方法,其特征在于,所述基于所述待检测文本及所述目标损失函数,得到所述待检测文本的偏离度特征,包括:对所述待检测文本进行切断处理,得到多个文本片段;基于每个所述文本片段,利用所述目标损失函数,计算得到每个所述文本片段的模型偏离度
。4.
根据权利要求3所述的方法,其特征在于,基于所述待检测文本

所述预测模型及所述预设字典,得到所述待检测文本的扩散度特征值,包括:将每个所述文本片段输入所述预测模型,得到所述预设字典中的每个预设字,在所述文本片段的每个字位上与相应的实际字相同的预测概率值;对每个文本片段的每个字位所得到的各预设字的预测概率值进行排序,得到排序结果;基于所述排序结果,对每个所述文本片段中,与每个字位的实际字相同的预设字的排名进行统计,得到统计结果;基于所述统计结果,得到扩散度特征值
。5.
根据权利要求1所述的方法,其特征在于,所述基于所述待检测文本,得到所述待检测文本的句子长度特征,包括:将所述待检测文本切分成多个句子;计算每个所述句子的长度

句子长度的平均值以及句子长度的标准差
。6.
根据权利要求1所述的方法,其特征在于,所述基于所述待检测文本,得到所述待检
测文本的字词分布特征,包括:对所述待检测文本进行分词并统计各个分...

【专利技术属性】
技术研发人员:孔祥煜薛德军耿崇
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1