【技术实现步骤摘要】
一种识别试卷中包含AI生成文字的方法、介质及系统
[0001]本专利技术属于答题文本识别
,具体而言,涉及一种识别试卷中包含
AI
生成文字的方法
、
介质及系统
。
技术介绍
[0002]随着
AI
的发展,已经在简答题中使用,对于学生的锻炼文本表达非常不利
。
试卷中答题文本的鉴定和评估一直是在教育和研究领域中重要的任务,然而,随着
AI
技术的发展,
AI
生成答题文本的广泛应用引发了对答题内容的真实性和可信度的疑问
。
目前尚缺乏一种有效的方法来确定一篇答题内容是否是由
AI
生成的,或包含部分
AI
生成内容,特别是当
AI
生成的文本内容经过高级算法优化以模拟人类写作的风格和语言时,鉴别尤为困难
。
技术实现思路
[0003]有鉴于此,本专利技术能够识别一篇答题文本是否为
AI
生成,降低判别难度
。
[0004]本专利技术是这样实现的:
[0005]本专利技术的第一方面提供一种识别试卷中包含
AI
生成文字的方法,其中,包括以下步骤:
[0006]S10、
对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,所述词性为答题文本中的名词
、
动词
、
形容词
、
副词 ...
【技术保护点】
【技术特征摘要】
1.
一种识别试卷中包含
AI
生成文字的方法,其特征在于,包括以下步骤:
S10、
对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,所述词性为答题文本中的名词
、
动词
、
形容词
、
副词;
S20、
统计答题文本中句子的字数分布情况
,
得到句长特征向量;
S30、
计算答题文本中相邻单词
、
相邻句子之间的重复率
、
相似率
,
得到词与词
、
句与句的逻辑关系向量;
S40、
基于多个大语言基座模型
,
分别对答题文本进行编码
,
得到多组语言模型的语义特征矩阵;
S50、
将上述得到的词性分布向量
、
句长特征向量
、
逻辑关系向量以及语义特征矩阵
,
输入到对应的大语言基座模型作为基础的微调
AI
文本判别模型中,得到每个微调
AI
文本判别模型输出的
AI
特征矩阵,所述
AI
特征矩阵中的每个元素表示对应的语义特征矩阵中每个元素是否
AI
生成,1表示
AI
生成,0表示非
AI
生成;
S60、
根据每个微调
AI
文本判别模型输出的
AI
特征矩阵整合计算得到
AI
生成文字概率;
S70、
将
AI
生成文字概率与预设阈值进行比较
,
若大于阈值则判定答题文本包含
AI
生成文字
,
否则判定答题文本不包含
AI
生成文字
。2.
根据权利要求1所述的一种识别试卷中包含
AI
生成文字的方法,其特征在于,所述对输入的答题文本进行词频统计
,
得到答题文本的词性分布向量,所述词性为答题文本中的名词
、
动词
、
形容词
、
副词,具体包括以下步骤:对输入的答题文本进行分词
,
得到词序列;对分词后的词序列进行词性标注
,
为每个词赋予一个词性标记;统计答题文本中各词性的词频
,
获得名词
、
动词
、
形容词和副词的词频分布;对各词性的词频进行正则化处理,并得到正则化处理后的词性分布向量,所述正则化处理用于消除文本长度对词性分布的影响;输出正则化处理后的词性分布向量
。3.
根据权利要求2所述的一种识别试卷中包含
AI
生成文字的方法,其特征在于,所述统计答题文本中句子的字数分布情况
,
得到句长特征向量,具体包括以下步骤:对输入的答题文本进行句子划分
,
得到句子序列;计算每个句子的字数
,
得到答题文本的句子字数序列,所述句子字数序列为数字集合;将句子字数序列内的元素进行分箱
,
设立多个字数区间
,
统计答题文本中属于每个字数区间的句子数量;计算单个句子在每个句子字数区间的概率,形成剧场分布向量;对句长分布向量进行正则化处理,得到句长特征向量;输出句长特征向量
。4.
根据权利要求3所述的一种识别试卷中包含
AI
生成文字的方法,其特征在于,所述计算答题文本中相邻单词
、
相邻句子之间的重复率
【专利技术属性】
技术研发人员:廖梦一,张武,臧国成,白春秀,贾鹏程,张鹏飞,王海瑞,王刚,梁世权,马国光,
申请(专利权)人:北京信诺软通信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。