一种可控生成与加速解码的保险知识库文本合规检测方法技术

技术编号：40036478 阅读：7 留言：0更新日期：2024-01-16 19:03

本发明专利技术公开了一种可控生成与加速解码的保险知识库文本合规检测方法。它具体包括如下步骤：(1)数据准备：采用正向构造以及反向构造的方式来提取违规样本以实现训练样本的构造；(2)可控生成模块：基于多种检索增强和自动检索增强的可控生成方法，使得检索模型能在有限甚至零样本的情况下完成文本合规检测；(3)加速解码模块：应用于多种检索增强和自动检索增强场景的加速解码方法，来减少模型推理时的解码次数。本发明专利技术的有益效果是：使得模型能在有限甚至零样本的情况下准确地完成保险文本合规检测，增强模型检测能力；减少模型推理时的解码次数，提升模型推理速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本模型检测相关，尤其是指一种可控生成与加速解码的保险知识库文本合规检测方法。

技术介绍

1、基于transformer的大型语言模型(largelanguagemodel，llm)在通用领域已经展示出较强的泛化能力，如何将llm应用于金融领域引起了学界和工业界的广泛关注。最近的一些工作主要围绕模型作为切入点，如通过改变模型结构提升效果。但在金融的保险文本合规检测能力中，面临的主要挑战如下：

2、1、政策法规文件是保险合规判断的基础，然而政策法规具有抽象性和时效性的特点，导致获取高质量有监督的训练样本十分困难，如何在有限甚至零样本的情况下完成保险文本合规检测是一个艰巨的任务。

3、2、基于transformer的模型常规解码方式需要一步步进行解码，无法充分利用gpu的算力，导致推理速度受限，如何无损的提升推理速度是另一个不可无视的难题。

技术实现思路

1、本专利技术是为了克服现有技术中存在上述的不足，提供了一种增强模型检测能力以及提升模型推理速度的可控生成与加速解码的保险知识库文本合规检测方法。

2、为了实现上述目的，本专利技术采用以下技术方案：

3、一种可控生成与加速解码的保险知识库文本合规检测方法，具体包括如下步骤：

4、(1)数据准备：采用正向构造以及反向构造的方式来提取违规样本以实现训练样本的构造；

5、(2)可控生成模块：基于多种检索增强和自动检索增强的可控生成方法，使得检索模型能在有限

6、(3)加速解码模块：应用于多种检索增强和自动检索增强场景的加速解码方法，来减少模型推理时的解码次数。

7、本专利技术提出基于多种检索增强的可控生成方法，使得模型能在有限甚至零样本的情况下准确地完成保险文本合规检测，利用多种可控生成方式克服保险合规检测中训练样本稀缺的问题，增强模型检测能力。此外，本专利技术提出一种应用于检索增强场景的加速解码方式，融入一种加速解码方式克服保险合规检测中推理速度受限的问题，减少模型推理时的解码次数，提升模型推理速度。

8、作为优选，在步骤(1)中，正向构造的方式具体为：基于政策法规解读，整理违规关键词，根据关键词构造违规样本；反向构造的方式具体为：收集大量的保险文本，基于正则和违规关键词提取违规样本。

9、作为优选，在步骤(2)中，基于多种检索增强的可控生成方法具体如下：

10、(a)文档检索：给定一个查询x，检索任务的目标是从语料库d＝{d1…dm}中获取与x相关的文档集合，使用一种基于嵌入表示的方法将文本的语义信息映射到低维度的连续向量空间，具体来说：引入基于双编码器架构的检索器e，分别对查询x与文档d∈d进行编码，然后各自对隐藏层的输出进行平均池化，得到查询x与文档d的嵌入表示分别为e(x)和e(d)，相似度计算方法如下：

11、s(d，x)＝cos(e(d)，e(x))

12、在此步骤中检索与查询x相比具有最高相似度分数的前k个文档；为了高效检索，预先计算每个文档d∈d的嵌入，并在这些嵌入上构建faiss索引；

13、(b)输入表示：假设文档集合d′∈d由前k个最相关的文档组成，将查询x与d′作为输入，通过下式计算生成的下一个token y的输出概率为：

14、

15、其中token是指文本分解得到的语言单元；y是指完整的回答内容，由所有生成的token组成；ο表示两个序列的连接，基于步骤(a)相似度计算公式得到文档d与查询x之间的相似度得分es(d，x)，权重λ(d，x)计算公式如下：

16、

17、虽然集成方法需要运行语言模型k次，但是在每个检索到的文档和查询之间执行交叉注意；

18、(c)检索器模型训练：给定查询x和相应的真实值y，计算检索似然和语言模型似然，通过最小化这两个分布之间的kl离散度来训练检索模型。

19、作为优选，在步骤(c)中，具体方法如下：

20、(c1)计算检索似然：计算每个检索文档d的检索似然，

21、

22、其中y是控制softmax温度的超参数；

23、(c2)计算语言模型似然：使用语言模型lm作为评分函数来衡量每个文档在多大程度上改善lm困惑度；首先，根据查询x、文档d和相应的真实值y计算plm(y|d，x)，概率越高，文档di在改善lm的困惑度方面做得越好；然后计算每个文档d的lm似然如下：

24、

25、(c3)损失函数通过最小化这两个分布之间的kl离散度来训练检索模型，计算公式如下：

26、

27、其中，为输入上下文x的集合，表示输入上下文x的个数。

28、作为优选，在基于多种检索增强的可控生成方法中，由于检索器中的参数在训练过程中不断更新，先前计算的文档参数不再是最新的；因此，在每t个训练步骤中重新计算文档嵌入，并使用新的嵌入重建有效的搜索索引；然后使用新的文档嵌入和索引进行检索，并重复训练过程。

29、作为优选，在步骤(2)中，基于自动检索增强的可控生成方法具体为：设lm生成的回答为y＝[s1，s2，...，sm]＝[w1，w2，...，wn]，其中s表示句子，w，表示token，m为句子数，n为token数，常见的选择是直接使用用户输入作为检索的查询，并立即生成完整的答案y＝lm([dx，x])；自动检索增强是一个通用框架，在生成过程中主动决定检索的时间和内容，导致检索和生成的交错，形式上在步骤t{t≥1)时，检索qt基于用户输入x和之前的生成y＜t＝[y0，…yt-1，]：

30、qt＝qry(x，y＜t)

31、其中，qry(·)为查询公式函数；在生成开始时(t＝1)，之前的生成内容为空将用户输入作为初始查询q1＝x，给定检索到的文档lm不断生成答案，直到触发下一次检索或到达终点：

32、

33、其中，yt表示当前步骤生成的token，lm的输入是当前检索到的文档用户输入x和之前的生成内容y＜t；在每一步中，丢弃先前检索到的文档，只使用当前步骤检索到的文档控制生成以防止达到lm的输入长度限制，公式如下：

34、

35、作为优选，在步骤(3)中，加速解码方法具体为：设d为参考文档列表，结合检索增强来提升模型生成的质量，此时生成结果y和参考文档d具有许多相同的文本跨度，基于这种特性，利用这种冗余来加速语言模型lm的解码，将d中的文本复制到lm解码器的输入中，具体做法如下：

36、(31)在每个解码步骤i检查生成内容中第i-n到第i个token片段yi-n：i是否与d中的某些文本跨度匹配；

37、(32)如果没有找到匹配，则进行贪婪解码的逐步解码；如果找到多个匹配跨度，则选择具有y＜i的最长匹配前缀的跨度；如果存在多个具有最长匹配前缀的跨度，将随机进行选本文档来自技高网...

【技术保护点】

1.一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，具体包括如下步骤：

2.根据权利要求1所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在步骤(1)中，正向构造的方式具体为：基于政策法规解读，整理违规关键词，根据关键词构造违规样本；反向构造的方式具体为：收集大量的保险文本，基于正则和违规关键词提取违规样本。

3.根据权利要求1所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在步骤(2)中，基于多种检索增强的可控生成方法具体如下：

4.根据权利要求3所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在步骤(c)中，具体方法如下：

5.根据权利要求3或4所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在基于多种检索增强的可控生成方法中，由于检索器中的参数在训练过程中不断更新，先前计算的文档参数不再是最新的；因此，在每T个训练步骤中重新计算文档嵌入，并使用新的嵌入重建有效的搜索索引；然后使用新的文档嵌入和索引进行检索，并重复训练过程。

>6.根据权利要求1所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在步骤(2)中，基于自动检索增强的可控生成方法具体为：设LM生成的回答为y＝[s1，，s2，...，sm]＝[w1，w2，...，wn]，其中s表示句子，w表示token，m为句子数，n为token数，常见的选择是直接使用用户输入作为检索的查询，并立即生成完整的答案y＝LM([Dx，x])；自动检索增强是一个通用框架，在生成过程中主动决定检索的时间和内容，导致检索和生成的交错，形式上在步骤t(t≥1)时，检索qt基于用户输入x和之前的生成y＜t＝[y0，…yt-1’]：

7.根据权利要求1所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在步骤(3)中，加速解码方法具体为：设D为参考文档列表，结合检索增强来提升模型生成的质量，此时生成结果y和参考文档D具有许多相同的文本跨度，基于这种特性，利用这种冗余来加速语言模型LM的解码，将D中的文本复制到LM解码器的输入中，具体做法如下：

...

【技术特征摘要】

1.一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，具体包括如下步骤：

4.根据权利要求3所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在步骤(c)中，具体方法如下：

5.根据权利要求3或4所述的一种可控生成与加速解码的保险知识库文本合规检测方法，其特征是，在基于多种检索增强的可控生成方法中，由于检索器中的参数在训练过程中不断更新，先前计算的文档参数不再是最新的；因此，在每t个训练步骤中重新计算文档嵌入，并使用新的嵌入重建有效的搜索索引；然后使用新的文档嵌入...

【专利技术属性】
技术研发人员：方科彬，吴杨君，金相宇，赵瑶，梁敏，
申请(专利权)人：杭州易有料科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人