论文检测方法及装置、存储介质、终端制造方法及图纸

技术编号:39441206 阅读:10 留言:0更新日期:2023-11-19 16:24
本发明专利技术公开了一种论文检测方法及装置、存储介质、终端,涉及文本处理技术领域,主要目的在于解决论文检测准确度较低的问题。主要包括获取待检测论文,并对所述待检测论文进行分段划分,得到多个论文片段;利用已经完成训练的分类模型对所述论文片段进行预测处理,得到各个所述论文片段的分类结果,所述分类结果包括各个token的分类概率;基于所述token的分类概率计算得到分类统计参数,并根据所述分类统计参数与预设参数阈值的比较结果确定所述待检测论文的检测结果,所述检测结果用于指示所述待检测论文是否基于自然语言生成模型生成。主要用于检测中文论文的是否基于人工智能模型生成。生成。生成。

【技术实现步骤摘要】
论文检测方法及装置、存储介质、终端


[0001]本专利技术涉及文本处理
,特别是涉及一种论文检测方法及装置、存储介质、终端。

技术介绍

[0002]随着生成式预训练语言模型技术的快速发展,人工智能(AI:ArtificialIntelligence)生成内容所覆盖的范围也越来越广泛,智能问答的生成、程序代码的编写、甚至是论文的撰写都可以基于预训练语言模型生成。但在大多应用场景中,基于AI的论文撰写是不被允许的,例如,学生的毕业论文,因此,在对论文进行查重的基础上,为了保证论文的真实性,还需要对论文的撰写方式进行检测,以确认论文是否为AI生成。
[0003]现有对基于AI生成的论文的检测,主要是将AI模型生成的论文内容作为训练样本完成对模型进行训练,进而基于训练完的模型对论文是否基于AI生成进行识别,但此方法过于依赖论文训练样本,仅能够学习到生成训练样本的模型的生成逻辑,模型的泛化能力较弱,且能够用于生成论文的模型种类较多,导致对论文是否基于AI模型生成的检测准确性较低。

技术实现思路

[0004]有鉴于此,本专利技术提供一种论文检测方法及装置、存储介质、终端,主要目的在于解决现对基于AI模型生成的论文的检测准确率较低的问题。
[0005]依据本专利技术一个方面,提供了一种论文检测方法,包括:
[0006]获取待检测论文,并对所述待检测论文进行分段划分,得到多个论文片段;
[0007]利用已经完成训练的分类模型对所述论文片段进行预测处理,得到各个所述论文片段的分类结果,所述分类结果包括各个token的分类概率;
[0008]基于所述token的分类概率计算得到分类统计参数,并根据所述分类统计参数与预设参数阈值的比较结果确定所述待检测论文的检测结果,所述检测结果用于指示所述待检测论文是否基于自然语言生成模型生成;
[0009]其中,所述已经完成训练的分类模型的训练语料的构建过程包括:基于多个自然语言生成模型的token表生成token集合,并基于所述token集合对样本论文中的token进行替换,得到训练语料生成。
[0010]进一步地,所述基于所述token集合对样本论文中的token进行替换,得到训练语料生成包括:
[0011]获取样本论文,并按照预设字符长度对所述样本论文进行分段划分,得到多个样本论文片段;
[0012]对所述样本论文片段进行分词,并将分词得到的各个原始token与所述全局token集合中的token进行匹配,得到各个所述样本论文片段的token命中数量;
[0013]基于所述token命中数量确定各个所述样本论文片段的token替换数量;
[0014]针对各个所述样本论文片段,按照token替换策略、所对应的所述token替换数量对所述样本论文片段中的token进行替换,得到训练语料;
[0015]其中,所述token替换策略至少包括基于所述token聚类列表集合进行替换的第一替换策略、基于所述全局token集合进行替换的第二替换策略,不进行替换的第三替换策略中的一个。
[0016]进一步地,所述token替换策略中的各个替换策略分别配置有对应的执行概率,所述针对各个所述样本论文片段,按照token替换策略、所对应的所述token替换数量对所述样本论文片段中的token进行替换,得到训练语料包括:
[0017]针对各个所述样本论文片段,随机确定满足所述token替换数量的待替换位置;
[0018]针对各个所述待替换位置,若所述待替换位置的token存在于所述全局token集合中,则通过替换策略概率发生器从各项所述替换策略中确定出目标替换策略;
[0019]按照所述目标替换策略对所述待替换位置进行替换,得到替换后的样本论文片段;
[0020]基于所述替换后的样本论文片段与所述样本论文片段在各个位置的比对结果对各个位置所对应的token进行标记,得到训练语料。
[0021]进一步地,所述基于多个自然语言生成模型的token表生成token集合包括:
[0022]获取多个自然语言生成模型的token表、及与所述token表中token对应的token向量嵌入表示;
[0023]将各个所述token表进行合并处理、去重处理,得到全局token集合;
[0024]基于所述token向量嵌入表示对各个所述token表中的token进行分别聚类,并基于各个聚类结果生成token聚类列表集合。
[0025]进一步地,所述基于所述token向量嵌入表示对各个所述token表中的token进行分别聚类,并基于各个聚类结果生成token聚类列表集合包括:
[0026]基于各个所述token表中的token数量计算各个所述自然语言生成模型所对应token的聚类类别数量;
[0027]针对各个所述token表中的token,基于对应的所述token向量嵌入表示、及所述聚类类别数量进行聚类,得到各个所述自然语言生成模型的聚类结果,所述聚类结果包括多个token聚类;
[0028]将各个所述聚类结果中对应同一token的token聚类合并为一个token聚类列表,得到token聚类列表集合,所述token聚类列表之间存在token交集。
[0029]进一步地,所述利用已经完成训练的分类模型对所述论文片段进行预测处理,得到各个所述论文片段的分类结果之前,所述方法还包括:
[0030]获取训练语料及token集合,并将所述token集合与Bert模型的原始token表进行合并处理,得到扩充后的Berttoken表;
[0031]基于所述Bert模型、所述扩充后的Berttoken表构建得到初始分类模型;
[0032]利用所述训练语料对所述初始分类模型进行训练,得到已经完成训练的分类模型。
[0033]进一步地,所述分类统计参数包括全局token分类概率均值、一类token分类概率均值、二类token数量占比,所述预设参数阈值包括与所述全局token分类概率均值对应的
第一参数阈值、与所述一类token分类概率均值对应的第二参数阈值、与所述二类token数量占比对应的第三参数阈值;
[0034]所述根据所述分类统计参数与预设参数阈值的比较结果确定所述待检测论文的检测结果包括:
[0035]若所述全局token分类概率均值、所述一类token分类概率均值、所述二类token数量占比中的任一一个均大于所对应的参数阈值,则确定所述待检测论文为基于自然语言生成模型生成的论文。
[0036]依据本专利技术另一个方面,提供了一种论文检测装置,包括:
[0037]获取模块,用于获取待检测论文,并对所述待检测论文进行分段划分,得到多个论文片段;
[0038]预测处理模块,用于利用已经完成训练的分类模型对所述论文片段进行预测处理,得到各个所述论文片段的分类结果;
[0039]确定模块,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种论文检测方法,其特征在于,包括:获取待检测论文,并对所述待检测论文进行分段划分,得到多个论文片段;利用已经完成训练的分类模型对所述论文片段进行预测处理,得到各个所述论文片段的分类结果,所述分类结果包括各个token的分类概率;基于所述token的分类概率计算得到分类统计参数,并根据所述分类统计参数与预设参数阈值的比较结果确定所述待检测论文的检测结果,所述检测结果用于指示所述待检测论文是否基于自然语言生成模型生成;其中,所述已经完成训练的分类模型的训练语料的构建过程包括:基于多个自然语言生成模型的token表生成token集合,并基于所述token集合对样本论文中的token进行替换,得到训练语料生成。2.根据权利要求1所述的方法,其特征在于,所述token集合包括token聚类列表集合、全局token集合,所述基于所述token集合对样本论文中的token进行替换,得到训练语料生成包括:获取样本论文,并按照预设字符长度对所述样本论文进行分段划分,得到多个样本论文片段;对所述样本论文片段进行分词,并将分词得到的各个原始token与所述全局token集合中的token进行匹配,得到各个所述样本论文片段的token命中数量;基于所述token命中数量确定各个所述样本论文片段的token替换数量;针对各个所述样本论文片段,按照token替换策略、所对应的所述token替换数量对所述样本论文片段中的token进行替换,得到训练语料;其中,所述token替换策略至少包括基于所述token聚类列表集合进行替换的第一替换策略、基于所述全局token集合进行替换的第二替换策略,不进行替换的第三替换策略中的一个。3.根据权利要求2所述的方法,其特征在于,所述token替换策略中的各个替换策略分别配置有对应的执行概率,所述针对各个所述样本论文片段,按照token替换策略、所对应的所述token替换数量对所述样本论文片段中的token进行替换,得到训练语料包括:针对各个所述样本论文片段,随机确定满足所述token替换数量的待替换位置;针对各个所述待替换位置,若所述待替换位置的token存在于所述全局token集合中,则通过替换策略概率发生器从各项所述替换策略中确定出目标替换策略;按照所述目标替换策略对所述待替换位置进行替换,得到替换后的样本论文片段;基于所述替换后的样本论文片段与所述样本论文片段在各个位置的比对结果对各个位置所对应的token进行标记,得到训练语料。4.根据权利要求1所述的方法,其特征在于,所述基于多个自然语言生成模型的token表生成token集合包括:获取多个自然语言生成模型的token表、及与所述token表中token对应的token向量嵌入表示;将各个所述token表进行合并处理、去重处理,得到全局token集合;基于所述token向量嵌入表示对各个所述token表中的token进行分别聚类,并基于各个聚类结果生成token聚类列表集合。
5.根据权利要求4所述的方法,其特征在于,所述基于所述token向量嵌入表示对各个所述token表中的token进行分别聚类,...

【专利技术属性】
技术研发人员:耿崇赵晶浩周哲
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1