论文检测方法及装置、存储介质、终端制造方法及图纸

技术编号：39441206 阅读：10 留言：0更新日期：2023-11-19 16:24

本发明专利技术公开了一种论文检测方法及装置、存储介质、终端，涉及文本处理技术领域，主要目的在于解决论文检测准确度较低的问题。主要包括获取待检测论文，并对所述待检测论文进行分段划分，得到多个论文片段；利用已经完成训练的分类模型对所述论文片段进行预测处理，得到各个所述论文片段的分类结果，所述分类结果包括各个token的分类概率；基于所述token的分类概率计算得到分类统计参数，并根据所述分类统计参数与预设参数阈值的比较结果确定所述待检测论文的检测结果，所述检测结果用于指示所述待检测论文是否基于自然语言生成模型生成。主要用于检测中文论文的是否基于人工智能模型生成。生成。生成。

全部详细技术资料下载

【技术实现步骤摘要】
论文检测方法及装置、存储介质、终端

[0001]本专利技术涉及文本处理
，特别是涉及一种论文检测方法及装置、存储介质、终端。

技术介绍

[0002]随着生成式预训练语言模型技术的快速发展，人工智能(AI：ArtificialIntelligence)生成内容所覆盖的范围也越来越广泛，智能问答的生成、程序代码的编写、甚至是论文的撰写都可以基于预训练语言模型生成。但在大多应用场景中，基于AI的论文撰写是不被允许的，例如，学生的毕业论文，因此，在对论文进行查重的基础上，为了保证论文的真实性，还需要对论文的撰写方式进行检测，以确认论文是否为AI生成。
[0003]现有对基于AI生成的论文的检测，主要是将AI模型生成的论文内容作为训练样本完成对模型进行训练，进而基于训练完的模型对论文是否基于AI生成进行识别，但此方法过于依赖论文训练样本，仅能够学习到生成训练样本的模型的生成逻辑，模型的泛化能力较弱，且能够用于生成论文的模型种类较多，导致对论文是否基于AI模型生成的检测准确性较低。

技术实现思路

[0004]有鉴于此，本专利技术提供一种论文检测方法及装置、存储介质、终端，主要目的在于解决现对基于AI模型生成的论文的检测准确率较低的问题。
[0005]依据本专利技术一个方面，提供了一种论文检测方法，包括：
[0006]获取待检测论文，并对所述待检测论文进行分段划分，得到多个论文片段；
[0007]利用已经完成训练的分类模型对所述论文片段进行预测处理，得到各个所述论文片段的分类结...

【技术保护点】

【技术特征摘要】
1.一种论文检测方法，其特征在于，包括：获取待检测论文，并对所述待检测论文进行分段划分，得到多个论文片段；利用已经完成训练的分类模型对所述论文片段进行预测处理，得到各个所述论文片段的分类结果，所述分类结果包括各个token的分类概率；基于所述token的分类概率计算得到分类统计参数，并根据所述分类统计参数与预设参数阈值的比较结果确定所述待检测论文的检测结果，所述检测结果用于指示所述待检测论文是否基于自然语言生成模型生成；其中，所述已经完成训练的分类模型的训练语料的构建过程包括：基于多个自然语言生成模型的token表生成token集合，并基于所述token集合对样本论文中的token进行替换，得到训练语料生成。2.根据权利要求1所述的方法，其特征在于，所述token集合包括token聚类列表集合、全局token集合，所述基于所述token集合对样本论文中的token进行替换，得到训练语料生成包括：获取样本论文，并按照预设字符长度对所述样本论文进行分段划分，得到多个样本论文片段；对所述样本论文片段进行分词，并将分词得到的各个原始token与所述全局token集合中的token进行匹配，得到各个所述样本论文片段的token命中数量；基于所述token命中数量确定各个所述样本论文片段的token替换数量；针对各个所述样本论文片段，按照token替换策略、所对应的所述token替换数量对所述样本论文片段中的token进行替换，得到训练语料；其中，所述token替换策略至少包括基于所述token聚类列表集合进行替换的第一替换策略、基于所述全局token集合进行替换的第二替换策略，不进行替换的第三替换策略中的一个。3.根据权利要求2所述的方法，其特征在于，所述token替换策略中的各个替换策略分别配置有对应的执行概率，所述针对各个所述样本论文片段，按照token替换策略、所对应的所述token替换数量对所述样本论文片段中的token进行替换，得到训练语料包括：针对各个所述样本论文片段，随机确定满足所述token替换数量的待替换位置；针对各个所述待替换位置，若所述待替换位置的token存在于所述全局token集合中，则通过替换策略概率发生器从各项所述替换策略中确定出目标替换策略；按照所述目标替换策略对所述待替换位置进行替换，得到替换后的样本论文片段；基于所述替换后的样本论文片段与所述样本论文片段在各个位置的比对结果对各个位置所对应的token进行标记，得到训练语料。4.根据权利要求1所述的方法，其特征在于，所述基于多个自然语言生成模型的token表生成token集合包括：获取多个自然语言生成模型的token表、及与所述token表中token对应的token向量嵌入表示；将各个所述token表进行合并处理、去重处理，得到全局token集合；基于所述token向量嵌入表示对各个所述token表中的token进行分别聚类，并基于各个聚类结果生成token聚类列表集合。
5.根据权利要求4所述的方法，其特征在于，所述基于所述token向量嵌入表示对各个所述token表中的token进行分别聚类，...

【专利技术属性】
技术研发人员：耿崇，赵晶浩，周哲，
申请(专利权)人：同方知网数字出版技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人