一种识别试卷中包含制造技术

技术编号:39590664 阅读:9 留言:0更新日期:2023-12-03 19:43
本发明专利技术提供了一种识别试卷中包含

【技术实现步骤摘要】
一种识别试卷中包含AI生成文字的方法、介质及系统


[0001]本专利技术属于答题文本识别
,具体而言,涉及一种识别试卷中包含
AI
生成文字的方法

介质及系统


技术介绍

[0002]随着
AI
的发展,已经在简答题中使用,对于学生的锻炼文本表达非常不利

试卷中答题文本的鉴定和评估一直是在教育和研究领域中重要的任务,然而,随着
AI
技术的发展,
AI
生成答题文本的广泛应用引发了对答题内容的真实性和可信度的疑问

目前尚缺乏一种有效的方法来确定一篇答题内容是否是由
AI
生成的,或包含部分
AI
生成内容,特别是当
AI
生成的文本内容经过高级算法优化以模拟人类写作的风格和语言时,鉴别尤为困难


技术实现思路

[0003]有鉴于此,本专利技术能够识别一篇答题文本是否为
AI
生成,降低判别难度

[0004]本专利技术是这样实现的:
[0005]本专利技术的第一方面提供一种识别试卷中包含
AI
生成文字的方法,其中,包括以下步骤:
[0006]S10、
对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,所述词性为答题文本中的名词

动词

形容词

副词
[0007]S20、
统计答题文本中句子的字数分布情况
,
得到句长特征向量;
[0008]S30、
计算答题文本中相邻单词

相邻句子之间的重复率

相似率
,
得到词与词

句与句的逻辑关系向量;
[0009]S40、
基于多个大语言基座模型
,
分别对答题文本进行编码
,
得到多组语言模型的语义特征矩阵;
[0010]S50、
将上述得到的词性分布向量

句长特征向量

逻辑关系向量以及语义特征矩阵
,
输入到对应的大语言基座模型作为基础的微调
AI
文本判别模型中,得到每个微调
AI
文本判别模型输出的
AI
特征矩阵,所述
AI
特征矩阵中的每个元素表示对应的语义特征矩阵中每个元素是否
AI
生成,1表示
AI
生成,0表示非
AI
生成;
[0011]S60、
根据每个微调
AI
文本判别模型输出的
AI
特征矩阵整合计算得到
AI
生成文字概率;
[0012]S70、

AI
生成文字概率与预设阈值进行比较
,
若大于阈值则判定答题文本包含
AI
生成文字
,
否则判定答题文本不包含
AI
生成文字

[0013]本专利技术提供的一种识别试卷中包含
AI
生成文字的方法的技术效果如下:通过对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,为后续准确判断试卷中是否包含
AI
生成内容奠定基础;通过构建句子字数分布向量
,
提取答题文本的句法结构特征
,
能够有效反映答题文本的语言风格和水平特点;通过统计相邻词与句的重复和相似度
,
可以判断文章的逻辑连贯性
,
避免重复或不相关的内容;通过集成多模型对答题文本进行编码
,
可以获得更全面的语义特征表示;通过模型集成和多层级概率计算
,
可以进行更可靠

稳定的
AI
生成概率估计;通过与阈值比较
,
实现了答题文本
AI
生成内容判别的二分类

阈值设定控制了方法的灵敏度
,
可以根据应用场景进行调整

[0014]在上述技术方案的基础上,本专利技术的一种识别试卷中包含
AI
生成文字的方法还可以做如下改进
:
[0015]其中,所述对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,所述词性为答题文本中的名词

动词

形容词

副词,具体包括以下步骤:
[0016]对输入的答题文本进行分词
,
得到词序列;
[0017]对分词后的词序列进行词性标注
,
为每个词赋予一个词性标记;
[0018]统计答题文本中各词性的词频
,
获得名词

动词

形容词和副词的词频分布;
[0019]对各词性的词频进行正则化处理,并得到正则化处理后的词性分布向量,所述正则化处理用于消除文本长度对词性分布的影响;
[0020]输出正则化处理后的词性分布向量

[0021]采用上述改进方案的有益效果为:通过上述方法提取答题文本词性分布这个显著特征
,
为后续准确判断试卷中是否包含
AI
生成内容奠定基础

词性分布特征可以有效反映语法结构和语义风格
,
是判断答题文本真伪的重要手段之一

该步骤为整体方法提供关键信息
,

AI
判别模型的训练及优化提供数据支撑

[0022]进一步的,所述统计答题文本中句子的字数分布情况
,
得到句长特征向量,具体包括以下步骤:
[0023]对输入的答题文本进行句子划分
,
得到句子序列;
[0024]计算每个句子的字数
,
得到答题文本的句子字数序列,所述句子字数序列为数字集合;
[0025]将句子字数序列内的元素进行分箱
,
设立多个字数区间
,
统计答题文本中属于每个字数区间的句子数量;
[0026]计算单个句子在每个句子字数区间的概率,形成剧场分布向量;
[0027]对句长分布向量进行正则化处理,得到句长特征向量;
[0028]输出句长特征向量

[0029]采用上述改进方案的有益效果为:通过构建句子字数分布向量
,
提取答题文本的句法结构特征
,
能够有效反映答题文本的语言风格和水平特点

句长分布特征的引入<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种识别试卷中包含
AI
生成文字的方法,其特征在于,包括以下步骤:
S10、
对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,所述词性为答题文本中的名词

动词

形容词

副词;
S20、
统计答题文本中句子的字数分布情况
,
得到句长特征向量;
S30、
计算答题文本中相邻单词

相邻句子之间的重复率

相似率
,
得到词与词

句与句的逻辑关系向量;
S40、
基于多个大语言基座模型
,
分别对答题文本进行编码
,
得到多组语言模型的语义特征矩阵;
S50、
将上述得到的词性分布向量

句长特征向量

逻辑关系向量以及语义特征矩阵
,
输入到对应的大语言基座模型作为基础的微调
AI
文本判别模型中,得到每个微调
AI
文本判别模型输出的
AI
特征矩阵,所述
AI
特征矩阵中的每个元素表示对应的语义特征矩阵中每个元素是否
AI
生成,1表示
AI
生成,0表示非
AI
生成;
S60、
根据每个微调
AI
文本判别模型输出的
AI
特征矩阵整合计算得到
AI
生成文字概率;
S70、

AI
生成文字概率与预设阈值进行比较
,
若大于阈值则判定答题文本包含
AI
生成文字
,
否则判定答题文本不包含
AI
生成文字
。2.
根据权利要求1所述的一种识别试卷中包含
AI
生成文字的方法,其特征在于,所述对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,所述词性为答题文本中的名词

动词

形容词

副词,具体包括以下步骤:对输入的答题文本进行分词
,
得到词序列;对分词后的词序列进行词性标注
,
为每个词赋予一个词性标记;统计答题文本中各词性的词频
,
获得名词

动词

形容词和副词的词频分布;对各词性的词频进行正则化处理,并得到正则化处理后的词性分布向量,所述正则化处理用于消除文本长度对词性分布的影响;输出正则化处理后的词性分布向量
。3.
根据权利要求2所述的一种识别试卷中包含
AI
生成文字的方法,其特征在于,所述统计答题文本中句子的字数分布情况
,
得到句长特征向量,具体包括以下步骤:对输入的答题文本进行句子划分
,
得到句子序列;计算每个句子的字数
,
得到答题文本的句子字数序列,所述句子字数序列为数字集合;将句子字数序列内的元素进行分箱
,
设立多个字数区间
,
统计答题文本中属于每个字数区间的句子数量;计算单个句子在每个句子字数区间的概率,形成剧场分布向量;对句长分布向量进行正则化处理,得到句长特征向量;输出句长特征向量
。4.
根据权利要求3所述的一种识别试卷中包含
AI
生成文字的方法,其特征在于,所述计算答题文本中相邻单词

相邻句子之间的重复率

【专利技术属性】
技术研发人员:廖梦一张武臧国成白春秀贾鹏程张鹏飞王海瑞王刚梁世权马国光
申请(专利权)人:北京信诺软通信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1