上海岩芯数智人工智能科技有限公司专利技术

上海岩芯数智人工智能科技有限公司共有15项专利

  • 本发明提出了一种加速大语言模型训练的数据预处理方法及系统,解决了现有大语言模型训练过程中将数据完全打散,以致数据的随机性缺失的问题。先后通过将用于大语言模型训练的数据打散后进行分块并按照文本数据的长度大小进行排序,实现了在保证数据集一定...
  • 本发明提供了一种用于RAG模型的段落分割方法,包括如下方法步骤:S1、获取待分割的段落的第一文本T1,并对待分割的段落的第一文本T1进行清洗,得到待分割段落的第二文本T2;S2、根据待分割段落的第二文本T2的标点符号,对待分割段落的第二...
  • 本发明涉及大语言模型技术领域,公开了一种基于融合向量和关键词检索的RAG知识问答方法和装置。关于方法,基于构建的知识库,实现用户问答;其中,问题Q1通过向量嵌入模型生成向量值QE1;在向量数据库中对向量值QE1相似检索出语义最相似的K个...
  • 本发明涉及计算机技术领域,公开了一种支持超多清洗规则的高效数据清洗方法、装置和电子设备。关于方法,包括:构建数据清洗规则函数;构建清洗规则池,其中,将所述清洗规则放入规则池,且根据需求配置所述规则池;构建清洗工具包;应用所述工具包清洗数...
  • 本发明提供了一种大语言模型预训练阶段损失计算的优化方法包括如下方法步骤:S1、提取自然语言段A的第一特征矩阵C1;S2、构造预测分布矩阵C2;S3、利用logsoftmax函数对预测分布矩阵C2进行处理,得到第二特征矩阵C3;S4、生成...
  • 本申请公开了一种中英文分词模型训练方法及装置,所述方法包括:从训练文本中分别提取中文语料和英文语料;针对筛选的中文语料,采用字节对编码BPE算法实现中文词频的统计,生成中文词表M;采用传统中文分词模型对生成的中文词表M进行语义性识别和调...
  • 本发明提供了一种基于生成式神经网络的投诉管理方法,包括如下方法步骤:S1、获取日常对话数据集,利用日常对话数据集对生成式神经网络模型进行训练,生成生成式对话模型;S2、获取历史投诉数据集和情感对话数据集,利用历史投诉数据集和情感对话数据...
  • 本发明提供了一种基于引导器的生成式神经网络问答系统,包括引导器,用于获取提示词,并根据提示词生成引导词;生成器,用于获取提示词和引导器生成的引导词,并根据提示词和引导词输出生成结果;引导器通过输入提示词集进行训练,使引导器生成与提示词对...
  • 本发明提供了一种基于LLM模型的数据清洗系统,包括:LLM模型以及模型指引系统;模型指引系统,包括第一prompt模板创建模块、第二prompt模板创建模块,以及few shot创建模块;第一prompt模板创建模块,用于创建第一pro...
  • 本发明提供了一种数据清洗质量的评测方法,包括如下方法步骤:S1、获取经过数据清洗的不同类型的待评测数据;S2、从不同类型的待评测数据中,收集影响数据清洗质量的异常数据样例,划分为与待评测数据类型一一对应的不同类型的异常数据样例;S3、根...
  • 本发明涉及泛智能问答技术领域,公开了一种使用大语言模型将业务流程调用嵌入对话系统的实现方法,包括:采用第一种方式封装用户的当前输入信息、历史问答信息,并输入所述大语言模型;判断是否需要调用业务流;采用第二种方式封装用户的所述当前输入信息...
  • 本发明提供了一种生成式神经网络树结构的构建方法,包括如下方法步骤:S1、获取多段自然语言的词序列,生成每一段自然语言的每一个词语的词向量;S2、以一段自然语言的每一个词语的词向量,对生成式神经网络进行训练,将训练后的所述生成式神经网络作...
  • 本发明提供了一种自然语言关联特征的记忆增强方法,包括:S1、获取自然语言的词序列,生成表示自然语言关联特征的关联特征矩阵D;S2、构建人工智能内容生成模型,其中,所述人工智能内容生成模型包括多层线性计算单元;S3、将表示自然语言关联特征...
  • 本申请提供一种海量信息下基于大语言模型的知识库问答方法及装置,先通过知识库检索模块召回与用户的查询问题相关的N个知识片段,再将用户的查询问题和N个知识片段作为提示指令Prompt A提供给大语言模型,充分利用大语言模型的文本理解能力,对...
  • 本发明提供了一种基于线性计算的自然语言关联特征的表示方法如下方法步骤:
1