一种融合专业知识和通用知识的模型构建方法技术

技术编号：40776490 阅读：6 留言：0更新日期：2024-03-25 20:22

本发明专利技术公开了一种融合专业知识和通用知识的模型构建方法，是通过采集获取通用数据集、专业数据集和专业注解数据集；通过对专业数据集进行处理，得到专业词汇表；构建初始通用模型和初始专业模型；将通用数据集预训练初始通用模型，得到训练后的通用模型；将专业数据集预训练初始专业模型，并在预训练过程中根据已获取的专业词汇表和预设公式加重l oss蒸发，得到训练后的专业模型；结合专业注解数据集与预设规则，融合训练后的专业模型和训练后的通用模型，得到最终的通用‑专业融合模型。相比于现有技术，本方法克服了模型塌陷问题，整合了通用模型和专业模型，有效兼容专业知识和通用知识，提高模型的专业性、通用性与可信度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能模型，特别是涉及一种融合专业知识和通用知识的模型构建方法。

技术介绍

1、传统基于decoder方式的模型预训练(pretrain)过程可以描述如下，通过上下文预测当前词的概率，具体是将对输入词进行词向量编码及位置编码合成，即通过加和形式将词向量和位置编码进行合成，将两者进行合成得到向量集合，作为decoder模块的输入，将最后一层输出通过softmax计算预测的概率，之后对其进行loss计算，一般我们采用交叉熵loss进行损失的计算。

2、针对通用数据数量较多的语料，可以采用上述训练过程，但是针对较少数量的医院医学语料数据(含有专业知识)而言，这类数据因为是医院直接产出，其具备更高的可信度，蕴含知识更加严谨全面。

3、但是，由于通用数据也存在常规的医疗知识，这些知识可信度低，并且可能与医疗专业知识存在冲突。

4、因此，提供一种兼容专业知识和通用知识的融合专业知识和通用知识的模型构建方法是本领域技术人员亟待解决的问题。

技术实现思路

1、本专利技术的目的在于提供一种融合专业知识和通用知识的模型构建方法，该方法逻辑清晰，安全、有效、可靠且操作简便，能有效兼容专业知识和通用知识，提高模型的专业性、通用性与可信度。

2、基于以上目的，本专利技术提供的技术方案如下：

3、一种融合专业知识和通用知识的模型构建方法，包括如下步骤：

4、获取通用数据集、专业数据集和专业注解数据集；

5、处理

6、构建初始通用模型和初始专业模型；

7、根据所述通用数据集预训练所述初始通用模型，以获取训练后的通用模型；

8、根据所述专业数据集预训练所述初始专业模型，在预训练过程中根据所述专业词汇表和预设公式加重loss惩罚，得到训练后的专业模型；

9、根据所述专业注解数据集和预设规则，融合所述训练后的专业模型和所述训练后的通用模型，以获取通用-专业融合模型。

10、优选地，所述处理所述专业数据集，以获取专业词汇表，，包括如下步骤：

11、通过实体抽取模型对所述专业数据集实体抽取，以获取实体内容；

12、清洗并筛选所述实体内容，以形成所述专业词汇表。

13、优选地，包括：

14、所述通用数据集和所述专业数据集共享相同的预设词汇表；

15、所述专业词汇表的tokens映射与所述预设词汇表一致。

16、优选地，所述根据所述专业数据集预训练所述初始专业模型之前，还包括如下步骤：

17、获取训练后的通用模型的模型参数；

18、将所述模型参数加载至所述初始专业模型中。

19、优选地，在预训练过程中根据所述专业词汇表和预设公式加重loss惩罚，具体为：

20、当专业词汇存在于所述专业词汇表中，则调整所述预设公式中的所述模型参数，加重loss惩罚；

21、所述预设公式为：

22、

23、其中，k为上下文窗口大小，c为专业词汇表，a为模型参数，u为当前预测的专业词汇，i为当前预测词的索引,u＝{u1,…,un}为当前句子的词汇集合。

24、优选地，所述根据所述专业注解数据集和预设规则，融合所述训练后的专业模型和所述训练后的通用模型，以获取通用-专业融合模型，包括如下步骤：

25、在所述训练后的专业模型和所述训练后的通用模型之间，根据注意力函数构建用于使所述训练后的专业模型的每层专业知识和所述训练后的通用模型的每层通用知识进行交互的纽带层；

26、在纽带层中，反向传播训练所述专业注解数据集，以使得所述训练后的专业模型最后一层专业知识与所述训练后的通用模型最后一层通用知识在融合层进行特征融合；

27、将融合后的特征在解码层中解码后tokens输出；

28、其中，所述通用-专业融合模型由所述训练后的专业模型、所述训练后的通用模型以及所述纽带层、所述融合层和所述解码层组成。

29、优选地，所述注意力函数具体为：

30、

31、其中，编码向量q为通用知识的embeddings，k与v均为专业知识的embeddings，dk为输入向量的维度,softmax为预测概率函数。

32、本专利技术公开了一种融合专业知识和通用知识的模型构建方法，是通过采集获取通用数据集、专业数据集和专业注解数据集；通过对专业数据集进行处理，得到专业词汇表；构建初始通用模型和初始专业模型；将通用数据集预训练初始通用模型，得到训练后的通用模型；将专业数据集预训练初始专业模型，并在预训练过程中根据已获取的专业词汇表和预设公式加重loss蒸发，得到训练后的专业模型；结合专业注解数据集与预设规则，融合训练后的专业模型和训练后的通用模型，得到最终的通用-专业融合模型。

33、相比于现有技术，本方法克服了模型塌陷问题，整合了通用模型和专业模型，有效兼容专业知识和通用知识，提高模型的专业性、通用性与可信度。

本文档来自技高网...

【技术保护点】

1.一种融合专业知识和通用知识的模型构建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的融合专业知识和通用知识的模型构建方法，其特征在于，所述处理所述专业数据集，以获取专业词汇表，包括如下步骤：

3.如权利要求2所述的融合专业知识和通用知识的模型构建方法，其特征在于，包括：

4.如权利要求3所述的融合专业知识和通用知识的模型构建方法，其特征在于，所述根据所述专业数据集预训练所述初始专业模型之前，还包括如下步骤：

5.如权利要求4所述的融合专业知识和通用知识的模型构建方法，其特征在于，在预训练过程中根据所述专业词汇表和预设公式加重loss惩罚，具体为：

6.如权利要求1所述的融合专业知识和通用知识的模型构建方法，其特征在于，所述根据所述专业注解数据集和预设规则，融合所述训练后的专业模型和所述训练后的通用模型，以获取通用-专业融合模型，包括如下步骤：

7.如权利要求6所述的融合专业知识和通用知识的模型构建方法，其特征在于，所述注意力函数具体为：

【技术特征摘要】

1.一种融合专业知识和通用知识的模型构建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的融合专业知识和通用知识的模型构建方法，其特征在于，所述处理所述专业数据集，以获取专业词汇表，包括如下步骤：

3.如权利要求2所述的融合专业知识和通用知识的模型构建方法，其特征在于，包括：

...

【专利技术属性】
技术研发人员：邱建华，刘伟华，马金民，刘磊，李林，
申请(专利权)人：智慧眼科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人