文本生成类别分析方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38605022 阅读:8 留言:0更新日期:2023-08-26 23:37
本申请涉及人工智能技术领域,特别是涉及一种文本生成类别分析方法、装置、计算机设备及存储介质。所述方法包括:对待分析文本进行分词处理,得到待分析文本的至少两个分词结果;基于目标分类模型,根据至少两个分词结果,确定待分析文本对应的预测生成类别;确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别;基于待分析文本对应的预测生成类别,以及各分词结果对应的预测生成类别,确定待分析文本所属的目标生成类别。本申请实现了准确确定待分析文本的目标生成类别,防止语言模型生成的虚假文本影响用户的体验。模型生成的虚假文本影响用户的体验。模型生成的虚假文本影响用户的体验。

【技术实现步骤摘要】
文本生成类别分析方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,特别是涉及一种文本生成类别分析方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着语言模型的不断发展,语言模型生成的文本与人工生成的文本相似度也越来越高,并且,通过进一步让语言模型学习人工生成文本的修辞方式,能够再次提高语言模型生成文本与人工生成文本的相似度。
[0003]由于语言模型生成文本的过程中缺乏严谨真实的参考依据,因此,语言模型生成的文本多为无意义的虚假文本,目前在越来越多的场景中,出现了语言模型生成的文本中存在大量的虚假文本,不仅影响其他用户的体验感,还导致用户无法根据虚假文本进行有效的判断,因此,如何识别文本的生成类别(如是通过人工方式生成,还是通过语义模型生成的)是目前急需解决的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够识别文本的生成类别的文本生成类别分析方法、装置、计算机设备及存储介质。
[0005]第一方面,本申请提供了一种文本生成类别分析方法。该方法包括:
[0006]对待分析文本进行分词处理,得到待分析文本的至少两个分词结果;
[0007]基于目标分类模型,根据至少两个分词结果,确定待分析文本对应的预测生成类别;
[0008]确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别;
[0009]基于待分析文本对应的预测生成类别,以及各分词结果对应的预测生成类别,确定待分析文本所属的目标生成类别。
[0010]在其中一个实施例中,确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别,包括:
[0011]对各分词结果进行混淆度评估,确定各分词结果对应的混淆度;
[0012]以各分词结果对应的混淆度为基础,对待分析文本的各分词结果进行重要性评估,确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别。
[0013]在其中一个实施例中,基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别,包括:
[0014]若分词结果对应的SHAP值为正值,则确定该分词结果对应的预测生成类别为模型生成;
[0015]若分词结果对应的SHAP值为负值,则确定该分词结果对应的预测生成类别为人工
生成。
[0016]在其中一个实施例中,基于待分析文本对应的预测生成类别,以及各分词结果对应的预测生成类别,确定待分析文本所属的目标生成类别,包括:
[0017]从各分词结果中筛选SHAP值的指标绝对值大于预设阈值的至少一个目标分词;
[0018]根据各目标分词对应的预测生成类别和待分析文本对应的预测生成类别,从各目标分词中确定与待分析文本具有相同预测生成类别的第一分词,以及从各目标分词中与待分析文本具有不同预测生成类别的第二分词;
[0019]基于第一分词的数量与第二分词的数量,确定待分析文本所属的目标生成类别。
[0020]在其中一个实施例中,训练得到目标分类模型的过程包括:
[0021]获取人工生成的文本,以及训练前的语言模型生成的文本;
[0022]基于人工生成的文本对训练前的语言模型进行语法训练,并获取训练后的语言模型生成的文本;
[0023]基于人工生成的文本、训练前的语言模型生成的文本、以及训练后的语言模型生成的文本,确定训练样本集;
[0024]基于训练样本集,训练目标分类模型。
[0025]在其中一个实施例中,基于训练样本集,训练目标分类模型包括:
[0026]基于训练样本集,对语言表征模型进行训练,得到训练后的语言表征模型;
[0027]基于训练后的语言表征模型和训练样本集,对初始分类模型进行训练,得到目标分类模型。
[0028]在其中一个实施例中,基于训练后的语言表征模型和训练样本集,对初始分类模型进行训练,得到目标分类模型,包括:
[0029]将训练样本集划分为训练集和微调集;
[0030]根据初始分类模型和训练后的语言表征模型对训练集的预测结果,对初始分类模型进行训练,得到中间分类模型;
[0031]根据中间分类模型和训练后的语言表征模型对微调集的预测结果,以及微调集的多分类标签,对中间分类模型进行微调,得到目标分类模型。
[0032]在其中一个实施例中,根据初始分类模型和训练后的语言表征模型对训练集的预测结果,对初始分类模型进行训练,得到中间分类模型,包括:
[0033]根据初始分类模型对训练集的预测结果,确定第一预测结果概率分布;
[0034]根据训练后的语言表征模型对训练集的预测结果,确定第二预测结果概率分布;
[0035]基于第一预测结果概率分布和第二预测结果概率分布,确定第一损失,并通过第一损失对初始分类模型进行训练,得到中间分类模型。
[0036]在其中一个实施例中,根据中间分类模型和训练后的语言表征模型对微调集的预测结果,以及微调集的多分类标签,对中间分类模型进行微调,得到目标分类模型,包括:
[0037]根据中间分类模型对微调集的预测结果,确定第三预测结果概率分布和中间分类模型的第一中间层输出向量,以及根据训练后的语言表征模型对微调集的预测结果,确定第四预测结果概率分布和训练后的语言表征模型的第二中间层输出向量;
[0038]根据第三预测结果概率分布和第四预测结果概率分布,确定第一交叉熵;
[0039]基于第三预测结果概率分布,以及微调集的多分类标签,确定第二交叉熵;
[0040]确定第一中间层的输出向量和第二中间层的输出向量之间的余弦相似度;
[0041]基于第一交叉熵、第二交叉熵、余弦相似度对中间分类模型进行微调处理,得到目标分类模型。
[0042]第二方面,本申请还提供了一种文本生成类别分析装置。该装置包括:
[0043]分词模块,用于对待分析文本进行分词处理,得到待分析文本的至少两个分词结果;
[0044]第一确定模块,用于基于目标分类模型,根据至少两个分词结果,确定待分析文本对应的预测生成类别;
[0045]第二确定模块,用于确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别;
[0046]第三确定模块,用于基于待分析文本对应的预测生成类别,以及各分词结果对应的预测生成类别,确定待分析文本所属的目标生成类别。
[0047]第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述第一方面任一实施例的文本生成类别分析方法。
[0048]第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成类别分析方法,其特征在于,所述方法包括:对待分析文本进行分词处理,得到待分析文本的至少两个分词结果;基于目标分类模型,根据所述至少两个分词结果,确定待分析文本对应的预测生成类别;确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别;基于待分析文本对应的预测生成类别,以及各分词结果对应的预测生成类别,确定待分析文本所属的目标生成类别。2.根据权利要求1所述的方法,其特征在于,所述确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别,包括:对各分词结果进行混淆度评估,确定各分词结果对应的混淆度;以各分词结果对应的混淆度为基础,对待分析文本的各分词结果进行重要性评估,确定各分词结果对应的重要性指标SHAP值,并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别。3.根据权利要求2所述的方法,其特征在于,所述基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别,包括:若分词结果对应的SHAP值为正值,则确定该分词结果对应的预测生成类别为模型生成;若分词结果对应的SHAP值为负值,则确定该分词结果对应的预测生成类别为人工生成。4.根据权利要求1所述的方法,其特征在于,所述基于待分析文本对应的预测生成类别,以及各分词结果对应的预测生成类别,确定待分析文本所属的目标生成类别,包括:从各分词结果中筛选SHAP值的指标绝对值大于预设阈值的至少一个目标分词;根据各目标分词对应的预测生成类别和待分析文本对应的预测生成类别,从各目标分词中确定与待分析文本具有相同预测生成类别的第一分词,以及从各目标分词中与待分析文本具有不同预测生成类别的第二分词;基于第一分词的数量与第二分词的数量,确定待分析文本所属的目标生成类别。5.根据权利要求1所述的方法,其特征在于,训练得到目标分类模型的过程包括:获取人工生成的文本,以及训练前的语言模型生成的文本;基于人工生成的文本对训练前的语言模型进行语法训练,并获取训练后的语言模型生成的文本;基于人工生成的文本、训练前的语言模型生成的文本、以及训练后的语言模型生成的文本,确定训练样本集;基于训练样本集,训练目标分类模型。6.根据权利要求5所述的方法,其特征在于,所述基于训练样本集,训练目标分类模型包括:基于训练样本集,对语言表征模型进行训练,得到训练后的语言表征模型;基于训练后的语言表征模型和所述训练样本集,对初始分类模型进行训练,得到目标分类模型。
7.根据权利要求6所述的方法,其特征在于,所述基于训练后的语言表征模型和所述训练样本集,对初始分类模型进行训练,得到目标分类模型,包括:将所述训练样本集划分为训练集和微调集;根据所述初始分类模型和...

【专利技术属性】
技术研发人员:伏勇
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1