文本生成类别分析方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：38605022 阅读：8 留言：0更新日期：2023-08-26 23:37

本申请涉及人工智能技术领域，特别是涉及一种文本生成类别分析方法、装置、计算机设备及存储介质。所述方法包括：对待分析文本进行分词处理，得到待分析文本的至少两个分词结果；基于目标分类模型，根据至少两个分词结果，确定待分析文本对应的预测生成类别；确定各分词结果对应的重要性指标SHAP值，并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别；基于待分析文本对应的预测生成类别，以及各分词结果对应的预测生成类别，确定待分析文本所属的目标生成类别。本申请实现了准确确定待分析文本的目标生成类别，防止语言模型生成的虚假文本影响用户的体验。模型生成的虚假文本影响用户的体验。模型生成的虚假文本影响用户的体验。

全部详细技术资料下载

【技术实现步骤摘要】
文本生成类别分析方法、装置、计算机设备及存储介质

[0001]本申请涉及人工智能
，特别是涉及一种文本生成类别分析方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着语言模型的不断发展，语言模型生成的文本与人工生成的文本相似度也越来越高，并且，通过进一步让语言模型学习人工生成文本的修辞方式，能够再次提高语言模型生成文本与人工生成文本的相似度。
[0003]由于语言模型生成文本的过程中缺乏严谨真实的参考依据，因此，语言模型生成的文本多为无意义的虚假文本，目前在越来越多的场景中，出现了语言模型生成的文本中存在大量的虚假文本，不仅影响其他用户的体验感，还导致用户无法根据虚假文本进行有效的判断，因此，如何识别文本的生成类别(如是通过人工方式生成，还是通过语义模型生成的)是目前急需解决的问题。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够识别文本的生成类别的文本生成类别分析方法、装置、计算机设备及存储介质。
[0005]第一方面，本申请提供了一种文本生成类别分析方法。该方法包括：
[0006]对待分析文本进行分词处理，得到待分析文本的至少两个分词结果；
[0007]基于目标分类模型，根据至少两个分词结果，确定待分析文本对应的预测生成类别；
[0008]确定各分词结果对应的重要性指标SHAP值，并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别；
[0009]基于待分析文本对应的预测生成类别，以及各分词结果对应...

【技术保护点】

【技术特征摘要】
1.一种文本生成类别分析方法，其特征在于，所述方法包括：对待分析文本进行分词处理，得到待分析文本的至少两个分词结果；基于目标分类模型，根据所述至少两个分词结果，确定待分析文本对应的预测生成类别；确定各分词结果对应的重要性指标SHAP值，并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别；基于待分析文本对应的预测生成类别，以及各分词结果对应的预测生成类别，确定待分析文本所属的目标生成类别。2.根据权利要求1所述的方法，其特征在于，所述确定各分词结果对应的重要性指标SHAP值，并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别，包括：对各分词结果进行混淆度评估，确定各分词结果对应的混淆度；以各分词结果对应的混淆度为基础，对待分析文本的各分词结果进行重要性评估，确定各分词结果对应的重要性指标SHAP值，并基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别。3.根据权利要求2所述的方法，其特征在于，所述基于各分词结果对应的SHAP值确定各分词结果对应的预测生成类别，包括：若分词结果对应的SHAP值为正值，则确定该分词结果对应的预测生成类别为模型生成；若分词结果对应的SHAP值为负值，则确定该分词结果对应的预测生成类别为人工生成。4.根据权利要求1所述的方法，其特征在于，所述基于待分析文本对应的预测生成类别，以及各分词结果对应的预测生成类别，确定待分析文本所属的目标生成类别，包括：从各分词结果中筛选SHAP值的指标绝对值大于预设阈值的至少一个目标分词；根据各目标分词对应的预测生成类别和待分析文本对应的预测生成类别，从各目标分词中确定与待分析文本具有相同预测生成类别的第一分词，以及从各目标分词中与待分析文本具有不同预测生成类别的第二分词；基于第一分词的数量与第二分词的数量，确定待分析文本所属的目标生成类别。5.根据权利要求1所述的方法，其特征在于，训练得到目标分类模型的过程包括：获取人工生成的文本，以及训练前的语言模型生成的文本；基于人工生成的文本对训练前的语言模型进行语法训练，并获取训练后的语言模型生成的文本；基于人工生成的文本、训练前的语言模型生成的文本、以及训练后的语言模型生成的文本，确定训练样本集；基于训练样本集，训练目标分类模型。6.根据权利要求5所述的方法，其特征在于，所述基于训练样本集，训练目标分类模型包括：基于训练样本集，对语言表征模型进行训练，得到训练后的语言表征模型；基于训练后的语言表征模型和所述训练样本集，对初始分类模型进行训练，得到目标分类模型。
7.根据权利要求6所述的方法，其特征在于，所述基于训练后的语言表征模型和所述训练样本集，对初始分类模型进行训练，得到目标分类模型，包括：将所述训练样本集划分为训练集和微调集；根据所述初始分类模型和...

【专利技术属性】
技术研发人员：伏勇，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人