一种面向垂直化应用的大语言模型优化方法技术

技术编号：40182060 阅读：6 留言：0更新日期：2024-01-26 23:47

本发明专利技术涉及一种面向垂直化应用的大语言模型优化方法，方法包括：在各任务类型下，从给定的所有主题中选择一个问题主题，提出工作场景中问题，并根据本地知识库标注与问题对应的回答，所述问题与三元组对应，所述三元组为问题主题、问题类型和推理类型，重复上述步骤，得到面向垂直化应用的大语言模型的训练集，基于面向垂直化应用的大语言模型的训练集训练通用的大语言模型，对大语言模型进行优化，优化后的大语言模型用于回答实际的工作场景下的问题。与现有技术相比，本发明专利技术具有提高模型通用能力、安全性与鲁棒性等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及垂直化大语言模型的，尤其是涉及一种面向垂直化应用的大语言模型优化方法。

技术介绍

1、目前，关于大型语言模型(large language model，llms)的能力评估主要包括通用能力评测、安全性评测与鲁棒性评测三大方向。通用能力指的是llms在各类任务中的表现和适应能力，如逻辑推理、文本理解、问题解答等。安全性评测则涵盖内容安全、数据安全和伦理安全，着重评估llms在处理数据、信息和道德问题时的稳健性和责任性。鲁棒性主要用于检验模型在面对输入数据的微小变动时，是否依然能保持判断的准确性。常见的鲁棒性包括对抗鲁棒性和分布偏移泛化性：其中，对抗鲁棒性研究模型面对对抗攻击和随机噪声扰动时的稳定性；而分布偏移泛化性衡量模型面对与训练数据分布不同的未知数据时的性能。常见的生成对抗样本扰动类型可划分为字符扰动、单词替换、语句转述以及通用对抗扰动(如，插入无意义语句等)四种颗粒度。对抗攻击方法包括以下四种：随机攻击(在自然条件下随机发生的，例如随机噪声、缺失、分布漂移)、盲盒攻击(不需要模型相关信息，仅仅基于先验条件下的攻击，例如文字同音词替换、语句转述等)、黑盒攻击(不能够获取模型的参数信息，但能获取模型推理结果)和白盒攻击(被攻击模型的参数可以被获取，通常用于评估最坏情况下的模型安全和鲁棒性)。

2、大型语言模型以其强大的意识识别能力、上下文理解能力，以及内容生成能力，引起了学术界和工业界的广泛关注，其一大应用场景在于将通用大型语言模型的能力应用到企业内部，也就是建立私有知识库，可以衍生出如智能ai客服、企

3、但是，通用的大型语言模型的训练数据来源于互联网上公开的通用知识库，若要服务于垂直专业领域和企业内部的私有知识库，面对不断变更的私域知识，则会存在知识盲区和时效性不足的问题，通用能力、安全性与鲁棒性都较低，难以实现理想的问答效果。

技术实现思路

1、本专利技术的目的就是为了优化面向垂直化应用的大语言模型，提高垂直化应用的大语言模型通用能力、安全性与鲁棒性而提供的一种面向垂直化应用的大语言模型优化方法。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种面向垂直化应用的大语言模型优化方法，方法包括：

4、在各任务类型下，从给定的所有主题中选择一个问题主题，提出工作场景中问题，并根据本地知识库标注与问题对应的回答，所述问题与三元组对应，所述三元组为问题主题、问题类型和推理类型，重复上述步骤，得到面向垂直化应用的大语言模型的训练集，

5、基于面向垂直化应用的大语言模型的训练集训练通用的大语言模型，对大语言模型进行优化，优化后的大语言模型用于回答实际的工作场景下的问题。

6、进一步地，根据本地知识库标注与问题对应的回答的具体步骤为：

7、对于提出的问题，返回一个或多个候选文章，若候选文章中存在与问题相关的页面，则选择问题相关的页面中包含答案的段落，整合并标注段落中对应的答案；

8、若候选文章中不存在与问题相关的页面，则判断是否存在其他相关的页面，若存在，则标注其他相关的页面的链接，若不存在，则重复上述步骤。

9、进一步地，段落中对应的答案与问题类型对应，所述问题类型包括实体问题、描述问题、逻辑问题和是非问题，其中，实体问题对应的答案为一个实体或多个实体，描述问题对应的答案为多个句子组成的一段描述，逻辑问题对应的答案为实体关系、属性差异或相同点比较，以及数学运算结果，是非问题对应的答案为是或否。

10、进一步地，方法还包括：根据本地知识库标注与问题对应的回答时，若提出的问题中存在提示词，且涉及敏感信息，则标注与问题对应的回答为拒绝回答，若不涉及敏感信息，则根据本地知识库标注与问题对应的回答；

11、若提出的问题中不存在提示词，则根据本地知识库标注与问题对应的回答。

12、进一步地，是非问题和对应的答案包括改述推理、举例推理、事实推理、隐式推理和未提及中的一种或多种推理情况；

13、整合并标注段落中是非问题对应的答案时，若是非问题和对应的答案为改述推理，也就是存在明确断言或反驳该是非问题的段落，则选择包括明确断言或反驳该是非问题的段落作为包含答案的段落，并标注与该段落对应的答案；

14、若是非问题和对应的答案为举例推理，也就是文章中存在该是非问题的例证或反例，则选择列举该是非问题的例证或反例的段落作为包含答案的段落，并标注与该段落对应的答案；

15、若是非问题和对应的答案为事实推理，也就是文章中存在与常识知识结合后得到是非问题的答案的段落，则选择该段落作为包含答案的段落，并标注与该段落对应的答案；

16、若是非问题和对应的答案为隐式推理，也就是文章中存在，若是非问题的答案不是是或否，则不成立的段落，则选择该段落作为包含答案的段落，并标注与该段落对应的答案；

17、若是非问题和对应的答案为未提及，也就是文章中存在额外的说明对应是非问题的答案，将额外的说明作为包含答案的段落，并标注与该段落对应的答案。

18、进一步地，整合段落中对应的答案的具体步骤为：

19、若段落中对应的答案为空，则返回空答案；

20、若段落中对应的答案为多个近似的答案，则进行合并和提炼，形成一个答案；

21、若段落中对应的答案为多个不同的答案，则分别列出多个不同的答案。

22、进一步地，近似的答案表示相似度达到阈值的答案，不同的答案表示相似度未达到阈值的答案。

23、进一步地，推理类型分为初级问题、中级问题和高级问题，其中，初级问题的推理类型的问题满足：包含答案的段落为同一篇候选文章的少量连续的段落；

24、中级问题的推理类型的问题满足：包含答案的段落为同一篇候选文章的大量连续的段落和少量不连续的段落；

25、高级问题的推理类型的问题满足：包含答案的段落为多篇候选文章的段落。

26、进一步地，所述段落为自然段落或表格或列表。

27、进一步地，候选文章包括网页附件文档，页面中显示文章标题、相关段落文字快照和访问链接中的一种或多种。

28、与现有技术相比，本专利技术具有以下有益效果：

29、(1)本专利技术建立了各任务类型下，不同的问题主题、问题类型和推理类型，提高了大语言模型通用能力，可以控制在哪些问题主题方面表现更好，或者更适应哪种问题类型或推理类型。同时在问题涉及敏感信息时，训练模型拒绝回答，提高了模型的安全性。此外，本专利技术的训练中的问题，均为工作场景中问题，以使模型对错误输入和噪声具有鲁棒性，更贴合模型真实使用场景。

30、(2)本专利技术训练集中的答案只根据本地知识库获取，依赖外部资料或常识信息，使得大语言模型能更深入的得到垂直化的私有数据库中的答案，减少外部的浅显的资料对垂直化模型的影响，保证垂直化模型的答案更加准确，提高了垂直化应用的大语言模本文档来自技高网...

【技术保护点】

1.一种面向垂直化应用的大语言模型优化方法，其特征在于，方法包括：

2.根据权利要求1所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，根据本地知识库标注与问题对应的回答的具体步骤为：

3.根据权利要求2所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，段落中对应的答案与问题类型对应，所述问题类型包括实体问题、描述问题、逻辑问题和是非问题，其中，实体问题对应的答案为一个实体或多个实体，描述问题对应的答案为多个句子组成的一段描述，逻辑问题对应的答案为实体关系、属性差异或相同点比较，以及数学运算结果，是非问题对应的答案为是或否。

4.根据权利要求2所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，方法还包括：根据本地知识库标注与问题对应的回答时，若提出的问题中存在提示词，且涉及敏感信息，则标注与问题对应的回答为拒绝回答，若不涉及敏感信息，则根据本地知识库标注与问题对应的回答；

5.根据权利要求3所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，是非问题和对应的答案包括改述推理、举例推理、事实推理、隐式推理

6.根据权利要求2所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，整合段落中对应的答案的具体步骤为：

7.根据权利要求6所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，近似的答案表示相似度达到阈值的答案，不同的答案表示相似度未达到阈值的答案。

8.根据权利要求2所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，推理类型分为初级问题、中级问题和高级问题，其中，初级问题的推理类型的问题满足：包含答案的段落为同一篇候选文章的少量连续的段落；

9.根据权利要求2所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，所述段落为自然段落或表格或列表。

10.根据权利要求2所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，候选文章包括网页附件文档，页面中显示文章标题、相关段落文字快照和访问链接中的一种或多种。

...

【技术特征摘要】

1.一种面向垂直化应用的大语言模型优化方法，其特征在于，方法包括：

2.根据权利要求1所述的一种面向垂直化应用的大语言模型优化方法，其特征在于，根据本地知识库标注与问题对应的回答的具体步骤为：

5.根据权利要求3所述的一种面向垂直化应用的大语言模型优化方...

【专利技术属性】
技术研发人员：崔一澜，刘建志，罗棕太，孙兆群，牛红星，
申请(专利权)人：上海仪电人工智能创新院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人