文本改写方法技术

技术编号:39673404 阅读:16 留言:0更新日期:2023-12-11 18:39
本申请公开了一种文本改写方法

【技术实现步骤摘要】
文本改写方法、装置、终端设备以及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种文本改写方法

装置

终端设备以及存储介质


技术介绍

[0002]目前,搜索引擎已经成为人们获取信息的主要渠道之一

但由于用户在使用搜索引擎时,使用的关键词可能存在语义模糊或歧义,因此需要对输入的文本进行改写以提高搜索结果的准确性

传统的搜索引擎改写方案使用同义词词典和文本相似度来进行文本改写,但存在如下问题:
[0003]一方面,同义词词典虽然可以处理一些特定的同义词转换,但是无法覆盖所有可能的同义词关系,如果用户的用户搜索词不在同义词词典中,就难以得到准确的改写结果,即便用户搜索词在同义词词典中,也难以使用词典中的同义词涵盖所有不同变形的同义词

另一方面,使用文本相似度来进行改写需要大量的高质量改写示例进行训练,但这需要耗费大量的人工标注成本,同时,这种方法在处理长尾词
(
出现频率较低的词汇
)
时效果可能不好

[0004]是以,有必要提出一种改善文本改写质量和泛化能力的方案


技术实现思路

[0005]本申请的主要目的在于提供一种文本改写方法

装置

终端设备以及存储介质,旨在解决文本改写质量和泛化能力差的技术问题

[0006]为实现上述目的,本申请提供一种文本改写方法,所述文本改写方法包括:
[0007]获取用户搜索词;
[0008]将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果,其中,所述文本改写模型基于预设二分类判别模型以及序列转换模型协同训练得到

[0009]可选地,所述将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果的步骤之前,还包括:
[0010]构建所述二分类判别模型,并基于所述序列转换模型,构建文本改写模型;
[0011]将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别结果,基于所述判别结果及预设第一收敛条件,训练所述二分类判别模型,得到训练好的二分类判别模型;
[0012]将所述训练语料输入所述训练好的二分类判别模型中进行判别计算,得到优化后的训练语料;
[0013]将所述优化后的训练语料输入所述文本改写模型中进行处理,得到处理结果,基于所述处理结果及预设第二收敛条件,训练所述文本改写模型,得到训练好的文本改写模型

[0014]可选地,所述基于所述处理结果及预设第二收敛条件,训练所述文本改写模型,得
到训练好的文本改写模型的步骤包括:
[0015]将所述处理结果作为所述训练语料,返回执行所述将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别结果,基于所述判别结果及预设第一收敛条件,训练所述二分类判别模型,得到训练好的二分类判别模型以及之后的步骤;
[0016]以此循环,进行参数迭代,直到所述文本改写模型收敛,终止训练,得到训练好的文本改写模型

[0017]可选地,所述将所述处理结果作为所述训练语料的步骤包括:
[0018]从所述处理结果中抽选若干改写词对;
[0019]在所述若干改写词对中,分别确定正例及反例,得到所述训练语料

[0020]可选地,所述将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别结果的步骤之前,还包括:
[0021]获取用户的行为数据;
[0022]基于预设多维度挖掘策略,对所述行为数据进行挖掘,得到所述训练语料

[0023]可选地,所述基于预设多维度挖掘策略,对所述行为数据进行挖掘,得到所述训练语料的步骤包括:
[0024]根据所述行为数据,构建搜索词与点击词关联图;
[0025]根据所述搜索词与点击词关联图,构建搜索词相似度矩阵;
[0026]对所述搜索词与点击词关联图进行随机游走,得到随机游走图;
[0027]基于所述搜索词相似矩阵和所述随机游走图,得到所述训练语料,所述训练语料包括若干个文本之间的相似度关系

[0028]可选地,所述文本改写模型包括编码器和解码器,所述将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果的步骤包括:
[0029]通过所述编码器对所述用户搜索词进行编码,得到词汇序列;
[0030]通过所述解码器对所述词汇序列进行预测,得到预测结果,连接所述预测结果与所述词汇序列,得到下一词汇序列;
[0031]以此循环,直到所述解码器解码出预设结束标志位,得到所述改写结果

[0032]本申请实施例还提出一种文本改写装置,所述文本改写装置包括:
[0033]获取模块,用于获取用户搜索词;
[0034]将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果,其中,所述文本改写模型基于预设二分类判别模型以及序列转换模型协同训练得到

[0035]本申请实施例还提出一种终端设备,所述终端设备包括存储器

处理器及存储在所述存储器上并可在所述处理器上运行的文本改写程序,所述文本改写程序被所述处理器执行时实现如上所述的文本改写方法的步骤

[0036]本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本改写程序,所述文本改写程序被处理器执行时实现如上所述的文本改写方法的步骤

[0037]本申请实施例提出的文本改写方法

装置

终端设备以及存储介质,通过获取用户搜索词;将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果,其中,所述文本改写模型基于预设二分类判别模型以及序列转换模型协同训练得到


过训练后的文本改写模型对用户搜索词进行泛化,可以解决文本改写准确率低的技术问题,提升文本改写的准确率

基于本申请方案,从真实世界中文本存在的相似规律出发,构建了一个真实世界的包含正例和反例的训练语料,并在该训练语料上验证了本申请提出的文本改写方法的有效性,最后经过本申请方法有效改善了文本改写的质量以及泛化能力

附图说明
[0038]图1为本申请文本改写装置所属终端设备的功能模块示意图;
[0039]图2为本申请文本改写方法第一示例性实施例的流程示意图;
[0040]图3为本申请文本改写方法的文本改写整体框架示意图;
[0041]图4为本申请文本改写方法第二示例性实施例的流程示意图;
[0042]图5为本申请文本改写方法第三示例性实施例的流程示意图;
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本改写方法,其特征在于,所述文本改写方法包括以下步骤:获取用户搜索词;将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果,其中,所述文本改写模型基于预设二分类判别模型以及序列转换模型协同训练得到
。2.
如权利要求1所述的文本改写方法,其特征在于,所述将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果的步骤之前,还包括:构建所述二分类判别模型,并基于所述序列转换模型,构建文本改写模型;将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别结果,基于所述判别结果及预设第一收敛条件,训练所述二分类判别模型,得到训练好的二分类判别模型;将所述训练语料输入所述训练好的二分类判别模型中进行判别计算,得到优化后的训练语料;将所述优化后的训练语料输入所述文本改写模型中进行处理,得到处理结果,基于所述处理结果及预设第二收敛条件,训练所述文本改写模型,得到训练好的文本改写模型
。3.
如权利要求2所述的文本改写方法,其特征在于,所述基于所述处理结果及预设第二收敛条件,训练所述文本改写模型,得到训练好的文本改写模型的步骤包括:将所述处理结果作为所述训练语料,返回执行所述将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别结果,基于所述判别结果及预设第一收敛条件,训练所述二分类判别模型,得到训练好的二分类判别模型以及之后的步骤;以此循环,进行参数迭代,直到所述文本改写模型收敛,终止训练,得到训练好的文本改写模型
。4.
如权利要求3所述的文本改写方法,其特征在于,所述将所述处理结果作为所述训练语料的步骤包括:从所述处理结果中抽选若干改写词对;在所述若干改写词对中,分别确定正例及反例,得到所述训练语料
。5.
如权利要求2所述的文本改写方法,其特征在于,所述将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别...

【专利技术属性】
技术研发人员:刘帆胡峥辉梁剑锋
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1