System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种知识图谱增强大语言模型推理的商标法律智能回答方法,属于自然语言处理领域。
技术介绍
1、大语言模型在各种nlp任务(如问答、机器翻译和文本生成)中表现出色,但同时也存在一系列弊端而备受批评,例如缺乏灵活性、幻觉、可解释性差等问题。而知识图谱以三元组的形式存储了大量的事实,是一种结构化和决定性的知识表示方式,具有特定领域知识、准确性、可解释性等优点。近年来,利用知识图谱增强大语言模型的范式引起了研究人员和实践者越来越多的关注,知识图谱不仅可以被纳入llm的预训练和推理阶段,提供外部知识,还可以用于分析llm,提供可解释性。当大语言模型应用到法律领域,面临着更大的挑战,例如知识推理的逻辑性、准确性法律时效性等问题。
2、针对于法律领域的大语言模型,国内许多高校、机构或者公司在通用大语言模型的基础上,使用高质量的法律数据进行微调以提高模型在法律问答、文本生成、案例分析等任务上的专业性和准确性,诞生了一系列具有代表的法律大模型。lawgpt_zh,基于chatglm,使用了基于特定知识的reliable-self-instruction,即提供具体的法律知识文本,先让chatgpt生成与该段法律知识内容与逻辑关系相关的若干问题,再通过“文本段-问题”对的方式让chatgpt回答问题,从而使chatgpt能够生成含有法律信息的回答。该工作的亮点在于数据集的构造方式,但是通过chatgpt生成的问答对的质量有待考量,因为chatgpt生成的答案也存在事实错误的情况。lawgpt,亮点在于扩充法律领域词表,在大规
3、通过在通用大语言模型的基础上,构造法律数据集并采用参数高效微调方法(如lora、prefix-tuning等)微调得到法律大模型这种训练范式虽然在性能上有一定的提升,但是在模型推理时,依然存在诸多弊病,例如生成内容与事实不符,法律时效性得不到保障等。因此,有相关工作采取在模型推理阶段引入“额外知识”增强大语言模型推理的优化方案,其中代表工作是将法律问题与法律知识库进行编码,通过相似度匹配实现检索,得到top-k个相关法条作为额外知识并提示大语言模型依据检索的法条生成回复内容。为了缓解单纯使用向量检索出结果不相关的问题,chatlaw采用“chatlawllm+keywordllm+lawsllm”的集成式开发方案。其中keywordllm将口语化的法律问题转化为法律行业关键词,并用于检索法条库中的法律知识。具体地,keywordllm抽取法律问题中的关键词组,然后分别遍历关键词进行编码并与编码的法律问题进行拼接,再与知识库的每个法条做相似度计算,每个法条的得分与所有关键词+法律问题拼接向量相似度之和,最终取top-k个法条作为上下文。在zhihaillm的工作中,对法律知识的检索工作采取意图识别、知识检索以及知识融合三个步骤做知识增强。在意图识别阶段,通过将问题中的关键词和不同类型知识库的特征关键词匹配,识别出问题涉及的知识类型并运用对应的知识库辅助。通过识别问题意图,缩小需要检索的知识库范围,减少易混淆知识带来的影响,提升检索精确度;在知识检索步骤,同时采用统计特征层面的检索和语义特征层面的检索。对于统计特征,预先提取知识库中每条知识的关键词,比如法条库中每条法条的关键词是所属法律和法条条数,使用模糊匹配提取问题中的关键词和知识关键词匹配获取相关知识。对于语义特征,使用向量相似度检索,为了提升检索精确度,预先准备每条知识对应的摘要,向量检索时使用知识摘要和问题进行相似度计算,找到相关知识后替换成具体知识;在知识融合阶段,由于知识检索在意图识别阶段可能涉及多个知识库类型,将检索到的不同来源的知识融合后输入给法律大模型。
4、通过在模型推理阶段注入额外的法律知识,一定程度上能够缓解大语言模型问答的缺陷,但是上述检索方法依旧存在不足之处。例如,在做相似度匹配进行召回时,相似度阈值和top-k不易控制,相似度阈值过高或者top-k过低,会导致有些有效知识点无法命中,反之,如果相似度阈值过低或者top-k过高,很多无效知识点或不相关的内容与噪声会被引入。再加上最大输入长度的限制,通常会进行截断处理,容易遗漏相似度较低但有效的知识点。
5、在法律大模型中,无论是预训练阶段还是推理阶段,目前不存在将知识图谱纳入大语言模型训练或推理的相关工作,但是“知识图谱增强大语言模型”范式的应用研究的价值有目共睹,是一项值得实践的应用场景,故我们利用知识图谱的优势弥补大语言模型的缺陷,提出一种知识图谱增强大语言模型推理的商标法律智能问答方法。特别地,我们设计了一种基于路径搜索与领域聚合的知识子图检索方法,获取与法律问题相关的背景知识。与传统的基于向量相似度检索法律知识的方法相比,我们检索的最终内容不再是具体法条,而是与问题直接相关的背景知识,摆脱了相似度阈值与top-k值对检索效果的影响,而且在检索内容长度上整体较低,一般不会超过模型的最大输入长度,确保了知识保留完整度。
6、名词解释:
7、bert编码器:bert编码器是一种预训练的自然语言处理模型,它采用了transformer架构。bert的主要特点是通过双向(bidirectional)的方式来理解上下文信息,相比传统的单向模型,能够更好地捕捉词语之间的关系和语境。prompt template(提示模板):prompt templates是一种可复制的生成prompt的方式,它包含一个文本字符串,可以接受来自终端用户的一组参数并生成prompt。prompt templates可以包含指令、少量示例和一个向语言模型提出的问题。通常使用prompt templates技术来指导语言模型生成更高质量的文本,从而更好地完成任务。
8、langchain框架:langchain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口,可简化创建由大型语言模型(llm)和聊天模型提供支持的应用程序的过程。langchain可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如api和数据库。
9、prompt方法:基于promp本文档来自技高网...
【技术保护点】
1.一种知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,包括以下步骤:
2.如权利要求1所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所述步骤1031的具体步骤如下:
3.如权利要求2所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1032的具体步骤如下:
4.如权利要求3所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1041的具体步骤如下:
5.如权利要求4所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1042的具体步骤如下:
6.如权利要求1所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所述步骤S105的具体步骤如下:
【技术特征摘要】
1.一种知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,包括以下步骤:
2.如权利要求1所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所述步骤1031的具体步骤如下:
3.如权利要求2所述的知识图谱增强大语言模型推理的商标法律智能问答方法,其特征在于,所属步骤1032的具体步骤如下:
4.如权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。