一种基于GPT架构的公文自动生成方法及装置制造方法及图纸

技术编号:38938024 阅读:12 留言:0更新日期:2023-09-25 09:38
本申请公开了一种基于GPT架构的公文自动生成方法及装置。所述基于GPT架构的公文自动生成方法包括:获取经过训练的GPT

【技术实现步骤摘要】
一种基于GPT架构的公文自动生成方法及装置


[0001]本申请涉文本生成
,尤其涉及一种基于GPT架构的公文自动生成方法以及基于GPT架构的公文自动生成装置。

技术介绍

[0002]现有的公文自动生成技术主要包括三种主流方法:基于语法句法规则的公文自动生成方法、基于检索式的公文自动生成方法、基于RNN/LSTM等浅层次深度网络的公文自动生成方法。下面我们将详细介绍以上三种方法。
[0003]下面我们针对现有的三种类型的技术,我们分析一下它们各自的缺点:
[0004](1)基于规则的方法的缺点是需要大量人为设定的规则模板,将需要大量的语言学专家去标注,而且这种方法将会导致自动生成的公文多样性较为单一,进而削弱了公文自动生成的效果。
[0005](2)基于检索模型的方法利用文本检索与排序技术从公文语料库中挑选合适的公文。由于这种方法是将已有的公文推荐给用户,所以语句通顺性较高;这种方法存在的不足是不能生成新的文本语料,并且当检索或排序时,可能只停留在表面的语义相关性,难以捕捉真实含义。
[0006](3)基于深度学习算法的生成方法主要使用encoder

decoder结构生成回复,典型技术是Seq2Seq网络结构。这种方法的优点是无需规则,能自动从已有对话文本中学习如何生成文本。其优势在于深度神经网络可以端到端地学习输入数据到输出文本的语义映射,而不需要人工参与进行特征工程。深度神经模型往往具有大量的参数,而大部分文本生成任务数据集都非常小,因此深度神经网络非常容易在这些数据集上过拟合,导致其无法在实际应用中进行泛化。
[0007]因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足。

技术实现思路

[0008]本专利技术的目的在于提供一种基于GPT架构的公文自动生成方法来至少解决上述的一个技术问题。
[0009]本专利技术提供了下述方案:
[0010]根据本专利技术的一个方面,提供一种基于GPT架构的公文自动生成方法,所述基于GPT架构的公文自动生成方法包括:
[0011]获取经过训练的GPT

OD语言模型;
[0012]获取使用者所输入的文字信息;
[0013]将所述文字信息输入至经过训练的GPT

OD语言模型,从而获取GPT

OD语言模型所输出的公文信息。
[0014]可选地,在所述获取经过训练的GPT

OD语言模型之前,所述基于GPT架构的公文自动生成方法进一步包括:
[0015]获取训练集;
[0016]通过训练集对所述GPT

2语言模型进行训练,从而获取GPT

OD语言模型。
[0017]可选地,所述训练集包括多个文字集合;
[0018]所述通过训练集对所述GPT

2语言模型进行训练包括:
[0019]对所述训练集中的各个文字集合进行预处理;
[0020]根据预处理后的文字集合对所述GPT

2语言模型进行训练。
[0021]可选地,所述对所述训练集中的各个文字集合进行预处理包括:
[0022]分别对每个文字集合进行如下处理:
[0023]获取文字集合的换行符的数量;
[0024]根据所述文字集合的换行符的数量判断文字集合是否超过预设行数,若否,则
[0025]删除不超过预设行数的文字集合。
[0026]可选地,所述对所述训练集中的各个文字集合进行预处理进一步包括:
[0027]根据所述文字集合的换行符的数量判断文字集合是否超过预设行数,若是,则
[0028]判断所述文字集合的字数是否小于第一预设字数,若是,则
[0029]删除小于第一预设字数的文字集合。
[0030]可选地,所述对所述训练集中的各个文字集合进行预处理进一步包括:
[0031]所述判断所述文字集合的字数是否小于第一预设字数,若否,则
[0032]根据所述文字集合的换行符以及字数判断是否连续5行中每行的字符数均小于15个字符,若是,则
[0033]删除连续5行中每行的字符数均小于15个字符的文字集合。
[0034]可选地,所述对所述训练集中的各个文字集合进行预处理进一步包括:
[0035]根据所述文字集合的换行符以及字数判断是否连续5行中每行的字符数均小于15个字符,若否,则
[0036]识别所述文字集合,判断文字集合中是否有至少两个序号,若是,则
[0037]判断各个序号是否连续,若否,则
[0038]删除序号不连续的文字集合。
[0039]可选地,所述对所述训练集中的各个文字集合进行预处理进一步包括:
[0040]判断各个序号是否连续,若是,则
[0041]获取预设文字数据库,所述预设文字数据库包括至少一个预设文字;
[0042]分别对文字集合的每一行进行判断,判断是否有一行不包括预设文字数据库中的任何一个预设文字,若是,则
[0043]删除不包括预设文字数据库中的任何一个预设文字的行。
[0044]可选地,所述根据预处理后的文字集合对所述GPT

2语言模型进行训练包括:
[0045]在进行训练过程中,分别为每个文字集合提供一个权重值;
[0046]在进行训练过程中,根据不同的权重值对各个文字集进行重新采样。
[0047]本申请还提供了一种基于GPT架构的公文自动生成装置,所述基于GPT架构的公文自动生成装置包括:
[0048]GPT

OD语言模型获取模块,所述GPT

OD语言模型获取模块用于获取经过训练的GPT

OD语言模型;
[0049]文字信息获取模块,所述文字信息获取模块用于获取使用者所输入的文字信息;
[0050]公文信息获取模块,所述公文信息获取模块用于将所述文字信息输入至经过训练的GPT

OD语言模型,从而获取GPT

OD语言模型所输出的公文信息。
[0051]本申请所提供的基于GPT架构的公文自动生成方法具有如下优点:
[0052]针对公文语料的数据预处理:使用了简单高效的数据预处理策略对大规模的公文语料进行了过滤,进而提升了模型的公文生成能力;
[0053]GPT

OD中的重采样策略技术:公文文件质量高的采样概率大,训练次数多,反之亦然,从而实现了最优的训练结果。
附图说明
[0054]图1是本申请一实施例中的基于GPT架构的公文自动生成方法的流程示意图。
[0055]图2是本申请一个实施例提供的基于GPT架构的公文自动生成方法的一种电子设备结构框图。
[0056]图3为本申请一个实施例中的GPT系列模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GPT架构的公文自动生成方法,其特征在于,所述基于GPT架构的公文自动生成方法包括:获取经过训练的GPT

OD语言模型;获取使用者所输入的文字信息;将所述文字信息输入至经过训练的GPT

OD语言模型,从而获取GPT

OD语言模型所输出的公文信息。2.如权利要求1所述的基于GPT架构的公文自动生成方法,其特征在于,在所述获取经过训练的GPT

OD语言模型之前,所述基于GPT架构的公文自动生成方法进一步包括:获取训练集;通过训练集对所述GPT

2语言模型进行训练,从而获取GPT

OD语言模型。3.根据权利要求2所述的基于GPT架构的公文自动生成方法,其特征在于,所述训练集包括多个文字集合;所述通过训练集对所述GPT

2语言模型进行训练包括:对所述训练集中的各个文字集合进行预处理;根据预处理后的文字集合对所述GPT

2语言模型进行训练。4.根据权利要求3所述的基于GPT架构的公文自动生成方法,其特征在于,所述对所述训练集中的各个文字集合进行预处理包括:分别对每个文字集合进行如下处理:获取文字集合的换行符的数量;根据所述文字集合的换行符的数量判断文字集合是否超过预设行数,若否,则删除不超过预设行数的文字集合。5.如权利要求4所述的基于GPT架构的公文自动生成方法,其特征在于,所述对所述训练集中的各个文字集合进行预处理进一步包括:根据所述文字集合的换行符的数量判断文字集合是否超过预设行数,若是,则判断所述文字集合的字数是否小于第一预设字数,若是,则删除小于第一预设字数的文字集合。6.如权利要求5所述的基于GPT架构的公文自动生成方法,其特征在于,所述对所述训练集中的各个文字集合进行预处理进一步包括:所述判断所述文字集合的字数是否小于第一预设...

【专利技术属性】
技术研发人员:马延美刘学谦王来奇
申请(专利权)人:北京方寸无忧科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1