一种受控中文句子改写生成方法技术

技术编号:39439401 阅读:10 留言:0更新日期:2023-11-19 16:22
本发明专利技术涉及自然语言改写技术领域,具体公开了一种受控中文句子改写生成方法,包括:获取训练数据集;根据训练数据集中的特定领域语料,对通用GPT2模型进行微调训练,以得到特定领域GPT2模型;将特定领域语料中的句子及其抽取出的实体和关键词进行融合后输入到特定领域GPT2模型中进行再次训练,以得到训练后的特定领域GPT2模型;获取待改写句子,将待改写句子及其抽取出的实体和关键词进行融合后输入到训练后的特定领域GPT2模型中进行改写,以输出待改写句子的改写结果。本发明专利技术提供的受控中文句子改写生成方法,提升句子生成过程中的可控性,使模型能够生成与待改写句子的内容及风格相似的新句子。格相似的新句子。格相似的新句子。

【技术实现步骤摘要】
一种受控中文句子改写生成方法


[0001]本专利技术涉及自然语言改写
,更具体地,涉及一种受控中文句子改写生成方法。

技术介绍

[0002]中文句子改写生成在AI智能辅助写作中有着重要的应用场景,其可以帮助用户在写作过程中对句子进行改写和润色,尤其是在办公自动化场景下能够提高文字工作者的写作效率。
[0003]现有技术中,通常是人为对句子进行改写和润色,这一过程会消耗大量的人力成本。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一,提供一种受控中文句子改写生成方法,以解决现有技术中的问题。
[0005]作为本专利技术的第一个方面,提供一种受控中文句子改写生成方法,包括如下步骤:步骤S1:获取用于训练通用GPT2模型的训练数据集,所述训练数据集包括多个特定领域语料;步骤S2:根据所述训练数据集中的特定领域语料,对所述通用GPT2模型进行微调训练,以得到特定领域GPT2模型;步骤S3:对所述特定领域语料中的句子进行实体和关键词的抽取,将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合,并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练,以得到训练后的特定领域GPT2模型;步骤S4:获取待改写句子,并对所述待改写句子进行实体和关键词的抽取,将所述待改写句子及其抽取出的实体和关键词进行融合,并将融合后的句子输入到所述训练后的特定领域GPT2模型中进行改写,以输出所述待改写句子的改写结果。
[0006]进一步地,所述对所述特定领域语料中的句子进行实体和关键词的抽取,将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合,并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练,以得到训练后的特定领域GPT2模型,还包括:利用Albert+CRF条件随机模型对所述特定领域语料中的句子进行实体抽取;利用TextRank和TFIDF模型对所述特定领域语料中的句子进行关键词抽取;将抽取出的实体和关键词进行融合并去除重复项,形成约束条件;将所述特定领域语料中的句子及其约束条件一起作为所述特定领域GPT2模型的输入,对所述特定领域GPT2模型进行训练,以得到训练后的特定领域GPT2模型。
[0007]进一步地,还包括:在每次对所述特定领域GPT2模型进行训练时,从抽取的关键词中进行动态随机采样。
[0008]进一步地,所述利用Albert+CRF条件随机模型对所述特定领域语料中的句子进行实体抽取,还包括:利用Albert模型加载预训练中文模型,在所述Albert模型后接一个全连接层,最后接CRF层;在自有的实体标注语料上对所述预训练中文模型进行微调训练,训练后的中文模型用于识别人名、地名和组织机构名;其中,利用Bert变体的一种小模型Albert用于序列标注,即对句子中的每个字进行分类,所述全连接层将FC分类结果送入所述CRF层用于约束序列标注结果的前后关系,使所述训练后的中文模型的识别结果更加合理。
[0009]进一步地,所述对所述待改写句子进行实体和关键词的抽取,将所述待改写句子及其抽取出的实体和关键词进行融合,并将融合后的句子输入到所述训练后的特定领域GPT2模型中进行改写,以输出所述待改写句子的改写结果,还包括:利用Albert+CRF条件随机模型对所述待改写句子进行实体抽取;利用TextRank和TFIDF模型对所述待改写句子进行关键词抽取;将抽取出的实体和关键词进行融合并去除重复项,形成约束条件;将所述待改写句子及其约束条件一起作为所述训练后的特定领域GPT2模型的输入,对所述待改写句子进行改写,以输出所述待改写句子的改写结果。
[0010]进一步地,还包括:在通过所述训练后的特定领域GPT2模型对所述待改写句子进行改写时,从抽取的关键词中进行动态随机采样。
[0011]进一步地,抽取出的实体包括人名、地名及组织机构名。
[0012]本专利技术提供的一种受控中文句子改写生成方法具有以下有益效果:通过在语言模型中引入特定领域语料进行微调训练,另外加入约束条件对模型的生成内容加以引导,提升句子生成过程中的可控性,使模型能够生成与待改写句子的内容及风格相似的新句子,同时能够实现商业上的广泛应用。
附图说明
[0013]附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。
[0014]图1为本专利技术提供的受控中文句子改写生成方法的流程图。
[0015]图2为本专利技术提供的通过训练后的特定领域GPT2模型对待改写句子进行改写的原理图。
[0016]图3为本专利技术提供的通用GPT2模型的训练流程图。
[0017]图4为本专利技术提供的特定领域GPT2模型的训练流程图。
具体实施方式
[0018]为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种受控中文句子改写生成方法其具体实施方式、结构、特征及其功效,详细说明如后。显然,所描述的实施例为本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有作出创造性劳动
前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0019]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0020]在本实施例中提供了一种受控中文句子改写生成方法,如图1所示,请同时参照图2,所述受控中文句子改写生成方法包括如下步骤:步骤S1:获取用于训练通用GPT2模型的训练数据集,所述训练数据集包括多个特定领域语料;需要说明的是,利用GPT2这种自监督模型,对语料进行自主学习,无需人工标注数据。通过改动模型的输入部分,将句子改写作为文本生成任务。
[0021]步骤S2:如图3所示,根据所述训练数据集中的特定领域语料,对所述通用GPT2模型进行微调训练,以得到特定领域GPT2模型;需要说明的是,利用通用GPT2模型(已有的开源的训练过的模型)在特定领域语料(比如新闻中的政治类语料或体育类语料)进行微调训练,限制通用GPT2模型生成的泛化性,使其更加适用于特定领域的生成模式。
[0022]步骤S3:如图4所示,对所述特定领域语料中的句子进行实体和关键词的抽取,将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合,并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练,以得到训练后的特定领域GPT2模型;优选地,所述对所述特定领域语料中的句子进行实体和关键本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种受控中文句子改写生成方法,其特征在于,包括如下步骤:步骤S1:获取用于训练通用GPT2模型的训练数据集,所述训练数据集包括多个特定领域语料;步骤S2:根据所述训练数据集中的特定领域语料,对所述通用GPT2模型进行微调训练,以得到特定领域GPT2模型;步骤S3:对所述特定领域语料中的句子进行实体和关键词的抽取,将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合,并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练,以得到训练后的特定领域GPT2模型;步骤S4:获取待改写句子,并对所述待改写句子进行实体和关键词的抽取,将所述待改写句子及其抽取出的实体和关键词进行融合,并将融合后的句子输入到所述训练后的特定领域GPT2模型中进行改写,以输出所述待改写句子的改写结果。2.根据权利要求1所述的一种受控中文句子改写生成方法,其特征在于,所述对所述特定领域语料中的句子进行实体和关键词的抽取,将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合,并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练,以得到训练后的特定领域GPT2模型,还包括:利用Albert+CRF条件随机模型对所述特定领域语料中的句子进行实体抽取;利用TextRank和TFIDF模型对所述特定领域语料中的句子进行关键词抽取;将抽取出的实体和关键词进行融合并去除重复项,形成约束条件;将所述特定领域语料中的句子及其约束条件一起作为所述特定领域GPT2模型的输入,对所述特定领域GPT2模型进行训练,以得到训练后的特定领域GPT2模型。3.根据权利要求2所述的一种受控中文句子改写生成方法,其特征在于,还包括:在每次对所述特定领域GPT2模型进行训练时,从抽取的关键词中...

【专利技术属性】
技术研发人员:石雁李艳夏振涛朱立烨
申请(专利权)人:永中软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1