一种受控中文句子改写生成方法技术

技术编号：39439401 阅读：10 留言：0更新日期：2023-11-19 16:22

本发明专利技术涉及自然语言改写技术领域，具体公开了一种受控中文句子改写生成方法，包括：获取训练数据集；根据训练数据集中的特定领域语料，对通用GPT2模型进行微调训练，以得到特定领域GPT2模型；将特定领域语料中的句子及其抽取出的实体和关键词进行融合后输入到特定领域GPT2模型中进行再次训练，以得到训练后的特定领域GPT2模型；获取待改写句子，将待改写句子及其抽取出的实体和关键词进行融合后输入到训练后的特定领域GPT2模型中进行改写，以输出待改写句子的改写结果。本发明专利技术提供的受控中文句子改写生成方法，提升句子生成过程中的可控性，使模型能够生成与待改写句子的内容及风格相似的新句子。格相似的新句子。格相似的新句子。

全部详细技术资料下载

【技术实现步骤摘要】
一种受控中文句子改写生成方法

[0001]本专利技术涉及自然语言改写
，更具体地，涉及一种受控中文句子改写生成方法。

技术介绍

[0002]中文句子改写生成在AI智能辅助写作中有着重要的应用场景，其可以帮助用户在写作过程中对句子进行改写和润色，尤其是在办公自动化场景下能够提高文字工作者的写作效率。
[0003]现有技术中，通常是人为对句子进行改写和润色，这一过程会消耗大量的人力成本。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一，提供一种受控中文句子改写生成方法，以解决现有技术中的问题。
[0005]作为本专利技术的第一个方面，提供一种受控中文句子改写生成方法，包括如下步骤：步骤S1：获取用于训练通用GPT2模型的训练数据集，所述训练数据集包括多个特定领域语料；步骤S2：根据所述训练数据集中的特定领域语料，对所述通用GPT2模型进行微调训练，以得到特定领域GPT2模型；步骤S3：对所述特定领域语料中的句子进行实体和关键词的抽取，将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合，并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练，以得到训练后的特定领域GPT2模型；步骤S4：获取待改写句子，并对所述待改写句子进行实体和关键词的抽取，将所述待改写句子及其抽取出的实体和关键词进行融合，并将融合后的句子输入到所述训练后的特定领域GPT2模型中进行改写，以输出所述待改写句子的改写结果。
[0006]进一步地，所述对所述特定领域语料...

【技术保护点】

【技术特征摘要】
1.一种受控中文句子改写生成方法，其特征在于，包括如下步骤：步骤S1：获取用于训练通用GPT2模型的训练数据集，所述训练数据集包括多个特定领域语料；步骤S2：根据所述训练数据集中的特定领域语料，对所述通用GPT2模型进行微调训练，以得到特定领域GPT2模型；步骤S3：对所述特定领域语料中的句子进行实体和关键词的抽取，将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合，并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练，以得到训练后的特定领域GPT2模型；步骤S4：获取待改写句子，并对所述待改写句子进行实体和关键词的抽取，将所述待改写句子及其抽取出的实体和关键词进行融合，并将融合后的句子输入到所述训练后的特定领域GPT2模型中进行改写，以输出所述待改写句子的改写结果。2.根据权利要求1所述的一种受控中文句子改写生成方法，其特征在于，所述对所述特定领域语料中的句子进行实体和关键词的抽取，将所述特定领域语料中的句子及其抽取出的实体和关键词进行融合，并将融合后的语料输入到所述特定领域GPT2模型中进行再次训练，以得到训练后的特定领域GPT2模型，还包括：利用Albert+CRF条件随机模型对所述特定领域语料中的句子进行实体抽取；利用TextRank和TFIDF模型对所述特定领域语料中的句子进行关键词抽取；将抽取出的实体和关键词进行融合并去除重复项，形成约束条件；将所述特定领域语料中的句子及其约束条件一起作为所述特定领域GPT2模型的输入，对所述特定领域GPT2模型进行训练，以得到训练后的特定领域GPT2模型。3.根据权利要求2所述的一种受控中文句子改写生成方法，其特征在于，还包括：在每次对所述特定领域GPT2模型进行训练时，从抽取的关键词中...

【专利技术属性】
技术研发人员：石雁，李艳，夏振涛，朱立烨，
申请(专利权)人：永中软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人