文本处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：38706637 阅读：27 留言：0更新日期：2023-09-08 14:47

本发明专利技术提出一种文本处理方法、装置、电子设备和计算机可读存储介质，涉及自然语言处理技术领域。该方法通过获取用户输入的提示文本，根据提示文本中的待处理问题和预设的样本数据库，获取与待处理问题属于同一类别的相似问题样本、与待处理问题属于不同类别的差异问题样本，将相似问题样本、相似问题样本对应的答案样本、差异问题样本、差异问题样本对应的答案样本作为样本数据，与提示文本一起输入预训练模型，获得待处理问题对应的答案。由于输入预训练模型的样本数据中既有相似样本又有差异样本，在确保击中用户正在问的问题的同时，还提供更多样化的数据帮助模型理解要完成的任务，故能使模型输出结果更准确，更好地适应不同业务场景。应不同业务场景。应不同业务场景。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、电子设备和计算机可读存储介质

[0001]本专利技术涉及自然语言处理
，具体而言，涉及一种文本处理方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]大语言模型(Large Language Model，LLM)是一种基于深度学习技术的自然语言处理模型，通过学习大量的语言数据来预测下一个单词或字符的概率，从而生成自然语言文本。其中，最为著名的大语言模型是由OpenAI开发的GPT系列模型，包括GPT
‑
1、GPT
‑
2、GPT
‑
3等版本；这些模型采用了Transformer架构，使用了大量的预训练数据和自监督学习技术，从而在多项自然语言处理任务上取得了出色的表现。此外，为了提高大语言模型的效率和准确性，还有一些相关的技术，比如对抗训练(adversarial training)、知识蒸馏(knowledge distillation)等；这些技术可以通过各种方式来进一步优化模型的性能，从而使其更加适用于各种不同的NLP(Natural Languag本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：获取用户输入的提示文本；所述提示文本中包括待处理问题；根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本；所述相似问题样本与所述待处理问题属于同一类别，所述差异问题样本与所述待处理问题属于不同类别；所述样本数据库包括多个问题样本以及各所述问题样本对应的答案样本，所述相似问题样本和所述相似问题样本对应的答案样本构成相似样本，所述差异问题样本和所述差异问题样本对应的答案样本构成差异样本；将所述提示文本、所述相似样本和所述差异样本输入预训练模型，获得所述待处理问题对应的答案。2.根据权利要求1所述的方法，其特征在于，所述根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本，包括：对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理，得到所述待处理问题对应的待处理问题向量以及每个所述问题样本对应的问题样本向量；对各所述问题样本向量进行聚类，得到多个聚类簇；根据多个所述聚类簇和所述待处理问题向量，获取相似问题样本和差异问题样本；所述相似问题样本从目标聚类簇中的问题样本向量所对应的问题样本中确定，所述目标聚类簇为所述待处理问题向量所属的聚类簇；所述差异问题样本从除所述目标聚类簇以外的其他聚类簇中的问题样本向量所对应的问题样本中确定。3.根据权利要求2所述的方法，其特征在于，所述根据多个所述聚类簇和所述待处理问题向量，获取相似问题样本和差异问题样本，包括：从多个所述聚类簇中确定所述待处理问题向量所属的目标聚类簇；根据所述待处理问题向量与所述目标聚类簇中的各个问题样本向量之间的相似度，确定所述目标聚类簇中与所述待处理问题向量最相似的第一预设数目个问题样本向量，并将所述第一预设数目个问题样本向量所对应的问题样本确定为相似问题样本；从除所述目标聚类簇以外的其他聚类簇中，随机选取第二预设数目个问题样本向量，并将所述第二预设数目个问题样本向量所对应的问题样本确定为差异问题样本。4.根据权利要求1所述的方法，其特征在于，所述根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本，包括：对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理，得到所述待处理问题对应的第一待处理问题向量以及每个所述问题样本对应的第一问题样本向量；对各所述第一问题样本向量进行聚类，得到多个第一聚类簇；对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行关键词提取，并对所述待处理问题对应的关键词提取结果、每个所述问题样本对应的关键词提取结果分别进行嵌入处理，得到所述待处理问题对应的第二待处理问题向量以及每个所述问题样本对应的第二问题样本向量；对各所述第二问题样本向量进行聚类，得到多个第二聚类簇；根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量，获取相似问题样本和差异问题样本；所述相似问题样本从第一目标聚类簇
中的第一问题样本向量所对应的问题样本以及第二目标聚类簇中的第二问题样本向量所对应的问题样本中确定；所述第一目标聚类簇为所述第一待处理问题向量所属的第一聚类簇，所述第二目标聚类簇为所述第二待处理问题向量所述的第二聚类簇；所述差异问题样本从除所述第一目标聚类簇以外的其他第一聚类簇中的第一问题样本向量所对应的问题样本中确定。5.根据权利要求4所述的方法，其特征在于，所述根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量，获取相似问题样本和差异问题样本，包括：从多个所述第一聚类簇中确定所述第一待处理问题向量所属的第一目标聚类簇；根据所述第一待处理问题向量与所述第一目标聚类簇中的各个第一问题样本向量之间的相似度，确定与所述第一待处理问题向量...

【专利技术属性】
技术研发人员：芦爱余，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人