基于深度学习的近义项替换的文本改写方法及系统技术方案

技术编号:36601297 阅读:53 留言:0更新日期:2023-02-04 18:16
本发明专利技术公开了基于深度学习的近义项替换的文本改写方法,包括以下步骤:采用回译的方法构建平行语料对,从中构建近义词,形成回译近义词库,并与通过互联网搜集的近义词库合并构建替换词库;对给定的句子进行分词,找到替换词库中相应词语的所有近义词,作为可替换项。确定哪些位置的词语可以替换之后,用roformer模型计算这些位置词语的所有可替换项的概率,选择概率大于阈值的可替换项;用roformersim模型来计算替换前后两句话的相似度,并用余弦相似度判断替换前后的句子的改动程度;选择余弦相似度低,同时roformer模型计算的相似度高的结果作为改写结果。本发明专利技术可以提高文本改写的效率。提高文本改写的效率。提高文本改写的效率。

【技术实现步骤摘要】
基于深度学习的近义项替换的文本改写方法及系统


[0001]本专利技术涉及自然语言处理领域,尤其涉及基于深度学习的近义项替换的文本改写方法及系统。

技术介绍

[0002]文本改写是深度学习中重要的研究方向,可以用于数据增强,在有限的数据基础上生成更多的数据,扩大训练样本,增加模型训练的鲁棒性。也可以用于文本的风格转换,在保留原始文本重要内容的基础上,以另一种风格来表述。
[0003]传统的文本改写主要是用相似的词语替换,会面临替换后语句不通顺的问题。近年来常常用到的方法是用seq2seq模型进行端到端的生成,改写后的语句通顺度有大幅提升,但是也会存在如下问题:(1)训练语料难以获取;(2)改写结果不可控;(3)特殊领域的专业词改写错误;(4)改写幅度小,与原文差距比较小;(5)改写的内容可能会有常识性的错误。

技术实现思路

[0004]本专利技术主要目的在于提供一种可以提高文本改写正确率的基于深度学习的近义项替换的文本改写方法及系统。
[0005]本专利技术所采用的技术方案是:
[0006]提供一种基于深度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的近义项替换的文本改写方法,其特征在于,包括以下步骤:S1、采用回译的方法构建平行语料对,并从平行语料对中构建近义词,形成回译近义词库,并与通过互联网搜集的近义词库合并构建替换词库;S2、对给定的句子进行分词,在替换词库中搜索每个词语,若存在,则找到替换词库中相应词语的所有近义词,作为可替换项;S3、确定哪些位置的词语可以替换之后,用roformer模型计算这些位置词语的所有可替换项的概率,选择概率大于阈值的可替换项;S4、用roformer sim模型来计算替换前后两句话的相似度,并用余弦相似度判断替换前后的句子的改动程度,改动程度越大,余弦相似度越低;S5、选择余弦相似度低,同时roformer模型计算的相似度高的结果作为改写结果。2.根据权利要求1所述的基于深度学习的近义项替换的文本改写方法,其特征在于,步骤S1中,在对平行语料对进行分词时,采用最小编辑距离寻找平行预料对中的近义项。3.根据权利要求2所述的基于深度学习的近义项替换的文本改写方法,其特征在于,步骤S1中,具体使用限定相邻词和词频来过滤近义项。4.根据权利要求1所述的基于深度学习的近义项替换的文本改写方法,其特征在于,步骤S3中阈值大于等于90%。5.一种基于深度学习的近义项替换的文本改写系统,其特征在于,包括:替换词库构建模块,用于采用回译的方法构建平行语料对,并从平行语料对中...

【专利技术属性】
技术研发人员:安升强曾彪张浩春邹安超
申请(专利权)人:武汉中科华研科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1