【技术实现步骤摘要】
一种AI生成文本的检测方法、装置、介质及设备
[0001]本专利技术涉及文本处理领域,具体而言涉及一种
AI
生成文本的检测方法
、
装置
、
介质及设备
。
技术介绍
[0002]AI
智能生成文本技术日趋成熟,由此科研工作者或学者在需要发表论文前,都要对论文进行审核,以避免部分或全部采用
AI
智能生成的论文发表而造成较为恶劣的影响
。
[0003]目前,通常采用人工的方式对论文进行审核,该种方式不仅费时费力,而且审核结果受审核人员的主观影响,审核结果的准确性较低
。
技术实现思路
[0004]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明
。
本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围
。
[0005]第一方面,本专利技术实施例提供了一种
AI
生成文本的检测方法,包括:
[0006]获取待检测文本
、
文本分类模型
、
目标损失函数
、
预设字典及预测模型;
[0007]将所述待检测文本输入所述文本分类模型,得到所述待检测文本为
AI
生成文本的第一概率值;
[0008]基于所述待检测文本及所述目标损失函数,得到所述待 ...
【技术保护点】
【技术特征摘要】
1.
一种
AI
生成文本的检测方法,其特征在于,包括:获取待检测文本
、
文本分类模型
、
目标损失函数
、
预设字典及预测模型;将所述待检测文本输入所述文本分类模型,得到所述待检测文本为
AI
生成文本的第一概率值;基于所述待检测文本及所述目标损失函数,得到所述待检测文本的偏离度特征;基于所述待检测文本
、
所述预测模型及所述预设字典,得到所述待检测文本的扩散度特征值;基于所述待检测文本,得到所述待检测文本的句子长度特征及字词分布特征;根据所述第一概率值
、
偏离度特征
、
扩散度特征值
、
句子长度特征及字词分布特征,判定所述待检测文本是否为
AI
生成文本
。2.
根据权利要求1所述的方法,其特征在于,获取待检测文本
、
文本分类模型及预测模型之前,包括:获取自回归网络模型;在所述自回归网络模型的网络结构的最后添加一个线性层,以得到文本分类模型,所述线性层与输入文本的最后一位标签的特征向量连接,所述线性层的输出为大小为2的一维向量;获取训练样本集及交叉熵损失函数,所述训练样本集包括人类撰写文本及
AI
生成文本;随机初始化所述线性层的参数;利用所述训练样本集及交叉熵损失函数,对所述文本分类模型进行有监督学习
。3.
根据权利要求1所述的方法,其特征在于,所述基于所述待检测文本及所述目标损失函数,得到所述待检测文本的偏离度特征,包括:对所述待检测文本进行切断处理,得到多个文本片段;基于每个所述文本片段,利用所述目标损失函数,计算得到每个所述文本片段的模型偏离度
。4.
根据权利要求3所述的方法,其特征在于,基于所述待检测文本
、
所述预测模型及所述预设字典,得到所述待检测文本的扩散度特征值,包括:将每个所述文本片段输入所述预测模型,得到所述预设字典中的每个预设字,在所述文本片段的每个字位上与相应的实际字相同的预测概率值;对每个文本片段的每个字位所得到的各预设字的预测概率值进行排序,得到排序结果;基于所述排序结果,对每个所述文本片段中,与每个字位的实际字相同的预设字的排名进行统计,得到统计结果;基于所述统计结果,得到扩散度特征值
。5.
根据权利要求1所述的方法,其特征在于,所述基于所述待检测文本,得到所述待检测文本的句子长度特征,包括:将所述待检测文本切分成多个句子;计算每个所述句子的长度
、
句子长度的平均值以及句子长度的标准差
。6.
根据权利要求1所述的方法,其特征在于,所述基于所述待检测文本,得到所述待检
测文本的字词分布特征,包括:对所述待检测文本进行分词并统计各个分...
【专利技术属性】
技术研发人员:孔祥煜,薛德军,耿崇,
申请(专利权)人:同方知网数字出版技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。