System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种知识图谱增强大语言模型推理的商标法律智能问答方法技术_技高网
当前位置: 首页 > 专利查询>湖南大学专利>正文

一种知识图谱增强大语言模型推理的商标法律智能问答方法技术

技术编号:40876911 阅读:5 留言:0更新日期:2024-04-08 16:46
本发明专利技术公开了一种知识图谱增强大语言模型推理的商标法律智能问答方法,包括商标法律知识图谱构建步骤、商标法律大语言模型训练步骤、法律问题识别步骤、知识子图检索步骤以及回复内容自动生成步骤,知识子图检索步骤是从商标法律知识图谱中检索与法律问题背景相关的知识子图,回复内容自动生成步骤是基于检索的法律知识增强商标法律大语言模型推理生成高质量的回复内容。本发明专利技术可以在有限的硬件资源下,自动回复商标领域的法律问题,通过与检索器的结合使用能够有效地提升生成的回复内容的逻辑性、准确性和法律时效性。

【技术实现步骤摘要】

本专利技术涉及一种知识图谱增强大语言模型推理的商标法律智能回答方法,属于自然语言处理领域。


技术介绍

1、大语言模型在各种nlp任务(如问答、机器翻译和文本生成)中表现出色,但同时也存在一系列弊端而备受批评,例如缺乏灵活性、幻觉、可解释性差等问题。而知识图谱以三元组的形式存储了大量的事实,是一种结构化和决定性的知识表示方式,具有特定领域知识、准确性、可解释性等优点。近年来,利用知识图谱增强大语言模型的范式引起了研究人员和实践者越来越多的关注,知识图谱不仅可以被纳入llm的预训练和推理阶段,提供外部知识,还可以用于分析llm,提供可解释性。当大语言模型应用到法律领域,面临着更大的挑战,例如知识推理的逻辑性、准确性法律时效性等问题。

2、针对于法律领域的大语言模型,国内许多高校、机构或者公司在通用大语言模型的基础上,使用高质量的法律数据进行微调以提高模型在法律问答、文本生成、案例分析等任务上的专业性和准确性,诞生了一系列具有代表的法律大模型。lawgpt_zh,基于chatglm,使用了基于特定知识的reliable-self-instruction,即提供具体的法律知识文本,先让chatgpt生成与该段法律知识内容与逻辑关系相关的若干问题,再通过“文本段-问题”对的方式让chatgpt回答问题,从而使chatgpt能够生成含有法律信息的回答。该工作的亮点在于数据集的构造方式,但是通过chatgpt生成的问答对的质量有待考量,因为chatgpt生成的答案也存在事实错误的情况。lawgpt,亮点在于扩充法律领域词表,在大规模法律文书及法典数据上预训练chinese-llama,使用50w中文裁判文书数据二次预训练,形成legal-base-7法律基座模型,第二阶段包括构造法律领域对话问答数据集,在预训练模型基础上指令精调,共构造30w高质量法律问答数据集,并通过knowledge-based self-instruct方式基于中文法律知识生成数据。lawyer llama,探讨了如何持续在训练阶段注入领域知识,以及如何设计适当的监督微调任务来帮助模型解决实际问题。leixlaw,是第四个法律大模型,基于chatglm-6b架构,通过在法律领域的数据集上进行微调,其亮点在数据的构造上。该团队认为仅使用法律领域数据进行微调容易导致严重的过拟合现象,使模型忘却原有的能力,因此lexilaw的训练数据是通过综合使用通用领域数据、专业法律数据和法律文书进行微调而得到。

3、通过在通用大语言模型的基础上,构造法律数据集并采用参数高效微调方法(如lora、prefix-tuning等)微调得到法律大模型这种训练范式虽然在性能上有一定的提升,但是在模型推理时,依然存在诸多弊病,例如生成内容与事实不符,法律时效性得不到保障等。因此,有相关工作采取在模型推理阶段引入“额外知识”增强大语言模型推理的优化方案,其中代表工作是将法律问题与法律知识库进行编码,通过相似度匹配实现检索,得到top-k个相关法条作为额外知识并提示大语言模型依据检索的法条生成回复内容。为了缓解单纯使用向量检索出结果不相关的问题,chatlaw采用“chatlawllm+keywordllm+lawsllm”的集成式开发方案。其中keywordllm将口语化的法律问题转化为法律行业关键词,并用于检索法条库中的法律知识。具体地,keywordllm抽取法律问题中的关键词组,然后分别遍历关键词进行编码并与编码的法律问题进行拼接,再与知识库的每个法条做相似度计算,每个法条的得分与所有关键词+法律问题拼接向量相似度之和,最终取top-k个法条作为上下文。在zhihaillm的工作中,对法律知识的检索工作采取意图识别、知识检索以及知识融合三个步骤做知识增强。在意图识别阶段,通过将问题中的关键词和不同类型知识库的特征关键词匹配,识别出问题涉及的知识类型并运用对应的知识库辅助。通过识别问题意图,缩小需要检索的知识库范围,减少易混淆知识带来的影响,提升检索精确度;在知识检索步骤,同时采用统计特征层面的检索和语义特征层面的检索。对于统计特征,预先提取知识库中每条知识的关键词,比如法条库中每条法条的关键词是所属法律和法条条数,使用模糊匹配提取问题中的关键词和知识关键词匹配获取相关知识。对于语义特征,使用向量相似度检索,为了提升检索精确度,预先准备每条知识对应的摘要,向量检索时使用知识摘要和问题进行相似度计算,找到相关知识后替换成具体知识;在知识融合阶段,由于知识检索在意图识别阶段可能涉及多个知识库类型,将检索到的不同来源的知识融合后输入给法律大模型。

4、通过在模型推理阶段注入额外的法律知识,一定程度上能够缓解大语言模型问答的缺陷,但是上述检索方法依旧存在不足之处。例如,在做相似度匹配进行召回时,相似度阈值和top-k不易控制,相似度阈值过高或者top-k过低,会导致有些有效知识点无法命中,反之,如果相似度阈值过低或者top-k过高,很多无效知识点或不相关的内容与噪声会被引入。再加上最大输入长度的限制,通常会进行截断处理,容易遗漏相似度较低但有效的知识点。

5、在法律大模型中,无论是预训练阶段还是推理阶段,目前不存在将知识图谱纳入大语言模型训练或推理的相关工作,但是“知识图谱增强大语言模型”范式的应用研究的价值有目共睹,是一项值得实践的应用场景,故我们利用知识图谱的优势弥补大语言模型的缺陷,提出一种知识图谱增强大语言模型推理的商标法律智能问答方法。特别地,我们设计了一种基于路径搜索与领域聚合的知识子图检索方法,获取与法律问题相关的背景知识。与传统的基于向量相似度检索法律知识的方法相比,我们检索的最终内容不再是具体法条,而是与问题直接相关的背景知识,摆脱了相似度阈值与top-k值对检索效果的影响,而且在检索内容长度上整体较低,一般不会超过模型的最大输入长度,确保了知识保留完整度。

6、名词解释:

7、bert编码器:bert编码器是一种预训练的自然语言处理模型,它采用了transformer架构。bert的主要特点是通过双向(bidirectional)的方式来理解上下文信息,相比传统的单向模型,能够更好地捕捉词语之间的关系和语境。prompt template(提示模板):prompt templates是一种可复制的生成prompt的方式,它包含一个文本字符串,可以接受来自终端用户的一组参数并生成prompt。prompt templates可以包含指令、少量示例和一个向语言模型提出的问题。通常使用prompt templates技术来指导语言模型生成更高质量的文本,从而更好地完成任务。

8、langchain框架:langchain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口,可简化创建由大型语言模型(llm)和聊天模型提供支持的应用程序的过程。langchain可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如api和数据库。

9、prompt方法:基于promp本文档来自技高网...

【技术保护点】

1.一种知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,包括以下步骤:

2.如权利要求1所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所述步骤1031的具体步骤如下:

3.如权利要求2所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1032的具体步骤如下:

4.如权利要求3所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1041的具体步骤如下:

5.如权利要求4所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1042的具体步骤如下:

6.如权利要求1所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所述步骤S105的具体步骤如下:

【技术特征摘要】

1.一种知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,包括以下步骤:

2.如权利要求1所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所述步骤1031的具体步骤如下:

3.如权利要求2所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1032的具体步骤如下:

4.如权利...

【专利技术属性】
技术研发人员:刘玉玲谭威武赵国龙
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1