【技术实现步骤摘要】
一种基于BERT模型的文本风格迁移方法及系统
[0001]本专利技术涉及计算机应用,自然语言处理领域。更具体的说,本专利技术涉及一种基于BERT模型的文本风格迁移方法及系统。
技术介绍
[0002]目前,机器自动生成文本成为了一项很热门且很方便的技术。但是机器本身生成的文本僵硬而且无趣,为了让机器自动生成的文本更具趣味和积极,需要控制生成文本的风格。由于风格本身是抽象的,要想直接控制生成的文本的风格无疑具备很大的难度,但是从一种风格转变成另一种风格难度就降低了。因此,研究文本风格迁移技术在学术界和工业界具有很高的应用价值。
[0003]文本风格迁移在文本生成和数据增强等领域具有十分广泛的应用前景。例如当某个风格的语料不足以支撑训练好一个文本生成模型的时候,可以使用足够的通用语料训练文本生成模型来生成文本,然后再使用较少量的样本训练模型,将生成的文本迁移到需要的风格。目前大部分工作是将句子映射到一个隐藏的语义空间中去,然后再将其转换到目标风格的语义空间,但是仍存在以下问题:
[0004]1、这种转换方式很难剥离 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT模型的文本风格迁移方法,其特征在于,包括如下步骤:抽取步骤:对不同平台进行语料抽取,筛选出合格语料;模型训练步骤:使用所述合格语料对基于BERT的模型进行训练;改写步骤:使用训练好的所述模型对文本进行改写,得到符合要求的风格文本。2.如权利要求1所述的基于BERT模型的文本风格迁移方法,其特征在于,所述模型训练步骤具体包括以下步骤:第一训练步骤:使用所述合格语料对Mask LM模型进行训练;第二训练步骤:使用所述合格语料对Next Sentence Prediction模型进行训练。3.如权利要求1所述的基于BERT模型的文本风格迁移方法,其特征在于,所述改写步骤具体包括以下步骤:分句步骤:对所述文本进行分句处理;第一替换步骤:使用所述Next Sentence Prediction模型对所述分句处理后的文本进行语句替换,获取替换文本;分词步骤:对所述替换文本进行分词处理;第二替换步骤:使用所述Mask LM模型对所述分词处理后的替换文本进行词语替换,得到所述风格文本。4.如权利要求3所述的基于BERT模型的文本风格迁移方法,其特征在于,所述第一替换步骤具体包括以下步骤:第一选取步骤:选取需要替换的语句;第二选取步骤:在目标风格的文本库中选取符合替换条件的替换语句集合;第三选取步骤:使用所述Next Sentence Prediction模型在所述替换语句集合中选取出替换语句。5.如权利要求4所述的基于BERT模型的文本风格迁移方法,其特征在于,所述替换条件包括语句长度和语句相似度。6.如权利要求3所述的基于BERT模型的文本风格迁移方法,其特征在于,所述第二替换步骤...
【专利技术属性】
技术研发人员:王东海,卫海天,
申请(专利权)人:北京明略昭辉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。