当前位置: 首页 > 专利查询>张丽莉专利>正文

一种GPT生成语言识别与检测系统技术方案

技术编号:38840533 阅读:27 留言:0更新日期:2023-09-17 09:54
本发明专利技术公开了一种GPT生成语言识别与检测系统,包括用户网页端、前端组成和模型与算法模块;用户网页端包含有文本检测界面、单个文件检测界面和多个文本批量检测界面。本发明专利技术提出了RMAP融合机制,保证模型的分类效果与泛化能力。首先采用数据增强技术对部分训练数据进行回译处理,使用自编码预训练模型RoBERTa和RCNN对文本进行特征提取,并利用多头注意力思想改进最大池化层的。完成深度特征提取后,通过softmax函数得到文本分类概率分布P,再取概率最大值对应的标签为分类结果,实现辨别效率高,且辨别更迅速准确的技术效果。且辨别更迅速准确的技术效果。且辨别更迅速准确的技术效果。

【技术实现步骤摘要】
一种GPT生成语言识别与检测系统


[0001]本专利技术涉及一种,特别涉及一种GPT生成语言识别与检测系统。

技术介绍

[0002][0003]现如今的社会对今年1月对1000名18岁以上学生进行了调查,结果显示48%的学生会使用ChatGPT完成小测验,而53%的学生则使用ChatGPT撰写论文。英国TheTab网站的调查显示,在12月和1月这两个大学的冬季考试季中,调查的八所大学中,就有高达128402次和982809次使用大学wifi浏览ChatGPT网站的记录,数量相当惊人。如何与剽窃作斗争,保证学术诚信,已引起各高校的高度重视。许多其他的应用和活动也面临着类似的问题,法律、医疗和金融等专业领域问题上的实证评估领域,可能会产生潜在的有害或虚假信息。大量的基于AI恶意程序生成的假新闻或知识问答,也可能会导致大量不实的误导信息肆意传播。
[0004]现有技术中,通常试图采用统计离群点检测法试图根据生成文本中的痕迹区分人类编写的文本和机器生成的文本,并引入了GLTR可视化工具,以帮助人类验证者检测机器生成的文本。它使用掩码填充策略构建模型生成文本的多个扰动,并将扰动的对数概率与未扰动的生成进行比较。如果未扰动文本的对数概率显著高于扰动的对数概率,则认为文本是模型生成的。
[0005]另一种检测方法依赖于分类器,这些分类器经过微调以区分人类书写的文本和机器生成的文本。这方面的早期努力是利用分类器来检测虚假的评论,主要通过多种语言模型微调,从而分辨人类的回答和机器的回答。
[0006]然而现有技术在中文领域的分辨具有较大的缺陷,具体包含有:
[0007]对非英语语种的支持问题:大型语言模型通常是在大规模的英文语料库上进行训练,对其他小语种的支持相对较弱,需要加强对小语种的支持;
[0008]准确性问题:LLM文本检测器的准确率可能会受到数据不平衡、语言差异、对抗攻击和复杂文本等方面的限制,因此在实际应用中需要进行充分的评估和优化;
[0009]泛化性问题:通常情况下,深度学习模型对于训练集中的数据可以取得很好的拟合效果,但在面对未曾见过的数据时,可能会出现过拟合的现象,导致泛化性能下降,生成的文本质量也会受到影响。

技术实现思路

[0010]本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种GPT生成语言识别与检测系统。
[0011]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0012]本专利技术一种GPT生成语言识别与检测系统,包括用户网页端、前端组成和模型与算法模块;
[0013]用户网页端包含有文本检测界面、单个文件检测界面和多个文本批量检测界面;
[0014]前端组成包含有HTML、CSS和JavaScript算法,用于前端展示和列序;
[0015]所述模型与算法模块包含有回译模块和RMAP模型,其中RMAP模型包含有RoBERTa转换词向量模块、RCNN卷积神经网络、多头注意力池化和标签平滑正则化单元,用于形成人类与ChatGPT对比中英文数据库以及对生成语言的识别;
[0016]回译模块包含有后端文件转文本和文本分类器,其中后端文件转文本包含有PHP算法,用于接受来自JavaScript的文本信息并提取文本信息;文本分类器包含有Python,用于对文本类型分类;
[0017]模型与算法模块包含有如下步骤
[0018]S1.RoBERTa转换词向量模块分别调用中文与英文RoBERTa模型,从词嵌入层获取初始字向E1~E
n
然后输入到多层双向Transformer编码器中以获得带有特征信息的向量T1~T
n
,以此将输入的文本信息形成预处理后文本的向量表示返回;
[0019]S2.通过RCNN卷积神经网络作为深度特征提取模块,将输入的预处理文本向量表示处理为文本词向量表示输出;
[0020]S3.通过多头注意力池化,将处理后的文本词向量输入后处理为二分类结果;
[0021]S31.当模型在训练过程中面对数据较少或特征量较少时,采用标签平滑正则化单元,通过输入文本特征向量表示,并设置真实的标签以及平滑因子,调节平滑程度后,即可输出经过平滑法处理后的预测结果。
[0022]作为本专利技术的一种优选技术方案,回译模块主要用删除重复的语句、进行分词和去除无用的词汇,先对句子进行分词,删除重复语句,基于HC3数据集预处理。
[0023]作为本专利技术的一种优选技术方案,S2中,在经典RCNN模型的词表示学习过程中采用BiLSTM获得文本的上下文信息并将BiLSTM获得的隐层输出与词向量拼接组合为新的词表示,具体公式如下
[0024]c
l

i
)=f(W
(l)
c
l

i
‑1)+W
(sl)
e(ω
i
‑1))
[0025]c
r

i
)=f(W
(r)
c
r

i+1
)+W
(sr)
e(ω
i+1
)),
[0026]其中:c
l

i
)表示第i个目标词上下文的上文;c
r

i
)表示第i个目标词上下文的下文,它们都是维度为c的向量;e(ω
i
‑1)和e(ω
i+1
)分别表示第i

1和i+1个词的词向量;W
(1)
,W
(r)
∈Rc
×
c是当前隐藏层转换到下一个隐藏层的权重矩阵;W
(s1)
和W
(sr)
是将当前词的语义与下一个词的上下文进行语义结合的矩阵;f为非线性激活函数;
[0027]获取目标词上下文表示后,将其与目标词的词向量进行拼接:
[0028]x
i
=[cl(ω
i
);e(ω
i
);c
r

i
)][0029]一条文本的词表示通过x
i
拼接后可以表示为:
[0030]X=[x1,x2,...,x
i
][0031]文本词向量表示通过映射后,进行激活函数的处理,
[0032]Y
i
=f(W
i
X+b
i
)
[0033]其中,映射矩阵W
i
∈R为属于CNN过滤器的权重;b
i
是偏置量;f(W
i
X+b
i
)代表激活函数,在此选用更适合深度特征提取与分类的Swish激活函数:
[0034]f(x)=xsigmoid(βx);
[0035]β为变量x的缩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种GPT生成语言识别与检测系统,其特征在于,包括用户网页端、前端组成和模型与算法模块;用户网页端包含有文本检测界面、单个文件检测界面和多个文本批量检测界面;前端组成包含有HTML、CSS和JavaScript算法,用于前端展示和列序;所述模型与算法模块包含有回译模块和RMAP模型,其中RMAP模型包含有RoBERTa转换词向量模块、RCNN卷积神经网络、多头注意力池化和标签平滑正则化单元,用于形成人类与ChatGPT对比中英文数据库以及对生成语言的识别;回译模块包含有后端文件转文本和文本分类器,其中后端文件转文本包含有PHP算法,用于接受来自JavaScript的文本信息并提取文本信息;文本分类器包含有Python,用于对文本类型分类;模型与算法模块包含有如下步骤S1.RoBERTa转换词向量模块分别调用中文与英文RoBERTa模型,从词嵌入层获取初始字向E1~E
n
然后输入到多层双向Transformer编码器中以获得带有特征信息的向量T1~T
n
,以此将输入的文本信息形成预处理后文本的向量表示返回;S2.通过RCNN卷积神经网络作为深度特征提取模块,将输入的预处理文本向量表示处理为文本词向量表示输出;S3.通过多头注意力池化,将处理后的文本词向量输入后处理为二分类结果;S31.当模型在训练过程中面对数据较少或特征量较少时,采用标签平滑正则化单元,通过输入文本特征向量表示,并设置真实的标签以及平滑因子,调节平滑程度后,即可输出经过平滑法处理后的预测结果。2.根据权利要求1所述的一种GPT生成语言识别与检测系统,其特征在于,所述回译模块主要用删除重复的语句、进行分词和去除无用的词汇,先对句子进行分词,删除重复语句,基于HC3数据集预处理。3.根据权利要求1所述的一种GPT生成语言识别与检测系统,其特征在于,S2中,在经典RCNN模型的词表示学习过程中采用BiLSTM获得文本的上下文信息并将BiLSTM获得的隐层输出与词向量拼接组合为新的词表示,具体公式如下c
l

i
)=f(W
(l) c
l

i
‑1)+W
(sl) e(ω
i
‑1))c
r

i
)=f(W
(r) c
r

i+1
)+W
(sr)
e(ω
i
+1)),其中:c1(ω
i
)表示第i个目标词上下文的上文;c
r

i
)表示第i个目标词上下文的下文,它们都是维度为c的向量;e(ω
i
‑1)和e(ω
i+1
)分别表示第i

1和i+1个词的词向量;W
(1)
,W
(r)
∈Rc
×
c是当前隐藏层转换到下一个隐藏层的权重矩阵;W
(s1)
和W
(sr)
是将当前词的语义与下一个词的上下文进行语义结合的矩阵;f为非线性激活函数;获取目标词上下文表示后,将其与目标词的词向量进行拼接:x
i
=[c
l

i
);e(ω
i
);c
r

i
)]一条文本的词表示通过x
i
拼接后可以表示为:X=[x1,x2,...,x
i
]文本词向量表示通过映射后,进行激活函数的处理,Y
i
=f(W
i<...

【专利技术属性】
技术研发人员:张丽莉王要珅韩彦博张阳莹陈闻生李德顺林道发李悦
申请(专利权)人:张丽莉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1