【技术实现步骤摘要】
一种基于变分自编码器的半监督同义文本改写方法
[0001]本专利技术涉及文本改写领域,尤其是涉及一种基于变分自编码器的半监督同义文本改写方法。
技术介绍
[0002]文本同义改写有着很多重要的商业应用,例如对于媒体工作者来说,同义改写可以提高内容创作的速度,提高内容的丰富性。再例如在外语教育行业,同义改写对于学生学习更加多样的语法结构,或者提高自己的阅读能力有着巨大的作用。
技术实现思路
[0003]本专利技术主要是提供一种具有较高性能的基于变分自编码器的半监督同义文本改写方法。
[0004]本专利技术针对上述技术问题主要是通过下述技术方案得以解决的:一种基于变分自编码器的半监督同义文本改写方法,包括以下步骤:
[0005]S1、数据收集;
[0006]S2、模型训练;
[0007]S3、使用获得的模型进行文本同义改写。
[0008]作为优选,步骤S1具体为:
[0009]S101、收集足量(大于10000句)的无标注句子,无标注句子和后续应用场景来自同一领域; ...
【技术保护点】
【技术特征摘要】
1.一种基于变分自编码器的半监督同义文本改写方法,其特征在于,包括以下步骤:S1、数据收集;S2、利用收集到的数据对模型进行训练;S3、使用获得的模型进行文本同义改写。2.根据权利要求1所述的一种基于变分自编码器的半监督同义文本改写方法,其特征在于,步骤S1具体为:S101、收集足量的无标注句子,无标注句子和后续应用场景来自同一领域;S102、标注同义句:首先从收集到的无标注句子中随机选取一部分的句子,然后让数据标注人员对选取的句子进行人工改写;然后把上一阶段收集的无标注句子导入全文搜索引擎作为数据库,再通过搜索的方式,找到数据库中与改写后的句子同等含义的句子获得同义句,从而得到训练用的数据。3.根据权利要求1或2所述的一种基于变分自编码器的半监督同义文本改写方法,其特征在于,步骤S2具体为,对于无标注数据,利用SGD优化方法优化第一损失函数,第一损失函数为:式中,x为句子,θ和φ为编码器参数,τ为解码器参数,λ为常数,q
Ф
(z|x,y)为编码器模型的输出概率,y代表分类的标签,p
τ
(x
bow
|z)为解码器模型的...
【专利技术属性】
技术研发人员:赵天成,
申请(专利权)人:宏龙科技杭州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。