一种基于GPT网络模型的中文问题重写方法技术

技术编号：37382042 阅读：14 留言：0更新日期：2023-04-27 07:23

本发明专利技术属于自然语言处理技术领域，具体涉及一种基于GPT网络模型的中文问题重写方法。在智能问答中，当训练集话术语料少时，模型泛化性效果较差，此时需要人工添加中文问题的相似问题，即话术，用于扩增话术语料，来提高模型的泛化性，使得在智能问答任务中能够取得较好的效果。本文提出了一种中文问题重写方案，非常适用于在智能问答场景中，来对数据集进行生成式文本扩增，从而提升问答效果、降低人工添加话术的成本。本发明专利技术实现了基于GPT模型的中文问题重写技术方案，降低了智能问答中人工添加话术的人力成本。加话术的人力成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于GPT网络模型的中文问题重写方法

[0001]本专利技术属于自然语言处理
，具体涉及一种基于GPT网络模型的中文问题重写方法。

技术介绍

[0002]在智能客服运行中，特别是在具体单独任务执行中，一般获得的训练数据都很匮乏，当训练集语料较少时，通过少样本训练得到的模型很难达到预期效果，急需一种中文问题重写方案，可以有效地为少样本数据集进行扩充，使模型能够在更多的数据上得到较好的效果。以解决现有聊天机器人、智能客服中对话数据集及话术扩增，进而提升模型的效果。基于以上技术背景，本申请提出了一种基于GPT模型的中文问题重写技术方案。

技术实现思路

[0003]本专利技术实现了一种基于大数据集训练GPT模型的中文问题重写技术方案，充分利用了GPT网络模型本身简单，以及利用了深度学习端到端的特点。该专利技术的使用条件为：训练集中每条训练样本中的两个问题拼接后输入模型的最大长度不超过72。相比于传统的中文问题重写方案，本专利技术充分利用了GPT本身具有的文本生成的特性，将中文问题重写方案转换成端到端的文本生成任务，除了准备收集中文相似问题的平行语料，训练模型，推理模型，中间不需要任何人工干预操作。
[0004]一种基于GPT网络模型的中文问题重写方法，包括如下步骤：S1.构造训练数据集参考github开源项目公开的相似度匹配数据集构造训练数据集，挑选出中文文本数据集中两个文本相似的文本组合；中文问题匹配对放在一个train.txt文件中，每一行放置匹配的两个中文问题，中间用
’/><sep>
’
分开，对数据进行删除过滤操作，设定文本最大长度max_len为72，即删除总长度大于72的文本，同时交换文本匹配的两条数据顺序进行扩增两条训练样本，经过整理得到中文问题匹配训练数据集；S2.建立词表将步骤S1中得到的中文问题匹配训练数据所有字符去重后，建立词表序列，记为Dict，Dict的前项key为字符索引编号，Dict的后项value为具体的单个字符， Dict为{字符索引编号0:
‘
[CLS]’
,1:
’
[PAD]’
,2:
’
[SEP]’
，.......}，其中[CLS]为文本起始符，[PAD]代表当文本长度不够最大长度时，采用[PAD]填充到max_len长度，[SEP]为中文问题和该中文问题重写后的问题的分割符，max_len为步骤S1中所提及的每条文本数据最大长度；S3.数据和模型适配假如现在在步骤S1中得到的训练数据集中的某条文本样本记为列表A，本条文本不够最大长度72，则将列表A通过[PAD]填充到该文本最大长度72，然后通过字典Dict，映射成索引编号列表，进而变成输入GPT模型Tensor张量X，对应的Y输出为缺少起始符通过索引编号列表，变成Tensor张量，作为模型输出的优化目标Y，将训练数据集中的其它文本执行
同样操作，得到整个输入数据和优化目标，作为后续模型的输入和优化目标；S4.构建GPT网络模型结构模型约定文本最大长度为72，嵌入维度为256，针对在步骤S3中模型输入的每条输入，先经过token_embedding、postional_embedding将文本进行嵌入表示，此时文本嵌入表示的矩阵形状为[72，256]，将该文本嵌入表示输入到GPT网络模型，即：具有遮掩mask的多头注意力机制Multi_Head_Attention、前馈全连接神经网络Feed_forward作为一个单元，重复6次，即6层相同的网络，得到整体网络模型结构；S5.训练模型根据步骤S4中已设定好的模型结构，并加入模型优化器和损失函数进行模型训练；具体训练过程为将步骤S1、S2和S3得到的模型输入数据，喂入步骤S4中得到的整体网络模型结构，模型最终目标即最小化损失函数，先根据网络结构进行前向传播，根据预测输出与真实输出计算损失，然后进行反向传播，通过Adam优化器不断更新网络模型参数，以此往复运行，直到损失函数值降低到最小并趋于稳定；将此时的参数矩阵进行保存，即可得到最优网络模型；S6.模型预测在模型预测阶段，模型参数随机失活比率dropout为0.1，解码阶段采取在模型预测的每个位置所属字的可能性按大小排序，仅保留最前面两个最大的标记，然后在该两个标记中保留最大的，在文本生成阶段，也即采样出可能性最高的两个中一个，然后通过词典获取该索引，该索引即为Dict的键Key值，然后根据Key值得到对应的字， '[SEP]'记为List_input，其长度为len_List，然后通过
’
[PAD]’
填充到最大长度72，再通过步骤S2中提及的字典Dict，映射成索引编号张量，将其作为模型输入，使用步骤S5中得到的网络模型，进入步骤S4中的网络结构，进行前向传播，得到logits值，再使用softmax计算模型输出的第len_List个位置可能性最高的字符，然后随机采样，然后再次通过
’
[PAD]’
填充到最大长度max_len，再通过步骤S2中提及的字典Dict，映射成索引编号张量，将其作为模型输入喂入步骤S5中得到的最优网络模型，此时计算模型输出的第len_List、1个位置可能性最高的字符采样，如此反复操作依次输出对应的改写后的中文问题，最后将所有预测的[SEP]后的字符拼接在一起，作为文本预测最终输出结果；S7.模型应用当前数据库中有问题Qa和答案Answer为问题和对应答案匹配对，通过将Qa多次输入GPT中文问题重写模型，则生成Qa的多种表示。
[0005]本专利技术实现了一种基于大数据集训练GPT模型的中文问题重写技术方案，充分利用了GPT网络模型结构简单、深度学习端到端的特点。该专利技术的使用条件为：训练集中每条训练样本中的两个问题拼接后输入模型的最大长度不超过72，同时如果应用到项目中，能接受一定程度的错误。相比于传统的中文问题重写方案，本专利技术充分利用了GPT本身具有的文本生成的特性，将中文问题重写方案转换成端到端的文本生成任务，除了准备收集中文相似问题的平行语料，训练模型，推理模型，中间不需要任何人工干预，相比于传统搜索方式的话术增强方法，生成式话术增强方法可以生成训练集中不存在的话术，使得话术全面，泛化性更好。
附图说明
[0006]图 1为GPT网络模型重写流程示意图。
具体实施方式
[0007]一种基于GPT网络模型的中文问题重写方法，包括如下步骤：S1.构造训练数据集参考github开源项目公开的相似度匹配数据集构造训练数据集，挑选出中文文本数据集中两个文本相似的文本组合；中文问题匹配对放在一个train.txt文件中，每一行放置匹配的两个中文问题，中间用
’
<sep>
’
分开，对数据进行删除过滤操作，设定文本最大长度max_len为72，即删除总长度大于72的文本，同时交换文本匹配的两条数据顺序进行扩增两条训练样本，经过整理得到中文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于GPT网络模型的中文问题重写方法，其特征在于包括如下步骤：S1.构造训练数据集参考github开源项目公开的相似度匹配数据集构造训练数据集，挑选出中文文本数据集中两个文本相似的文本组合；中文问题匹配对放在一个train.txt文件中，每一行放置匹配的两个中文问题，中间用
’
<sep>
’
分开，对数据进行删除过滤操作，设定文本最大长度max_len为72，即删除总长度大于72的文本，同时交换文本匹配的两条数据顺序进行扩增两条训练样本，经过整理得到中文问题匹配训练数据集；S2.建立词表将步骤S1中得到的中文问题匹配训练数据所有字符去重后，建立词表序列，记为Dict，Dict的前项key为字符索引编号，Dict的后项value为具体的单个字符， Dict为{字符索引编号0:
‘
[CLS]
’
,1:
’
[PAD]
’
,2:
’
[SEP]
’
，.......}，其中[CLS]为文本起始符，[PAD]代表当文本长度不够最大长度时，采用[PAD]填充到max_len长度，[SEP]为中文问题和该中文问题重写后的问题的分割符，max_len为步骤S1中所提及的每条文本数据最大长度；S3.数据和模型适配假如现在在步骤S1中得到的训练数据集中的某条文本样本记为列表A，本条文本不够最大长度72，则将列表A通过[PAD]填充到该文本最大长度72，然后通过字典Dict，映射成索引编号列表，进而变成输入GPT模型Tensor张量X，对应的Y输出为缺少起始符通过索引编号列表，变成Tensor张量，作为模型输出的优化目标Y，将训练数据集中的其它文本执行同样操作，得到整个输入数据和优化目标，作为后续模型的输入和优化目标；S4.构建GPT网络模型结构模型约定文本最大长度为72，嵌入维度为256，针对在步骤S3中模型输入的每条输入，先经过token_embedding、postional_embedding将文本进行嵌入表示，此时文本嵌入表示的矩阵形状为[72，256]，将该文本嵌入表示输入到GPT...

【专利技术属性】
技术研发人员：张峻崎，曹肖攀，陈先磊，吴磊，赵凯文，赵俊容，
申请(专利权)人：中电万维信息技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人