【技术实现步骤摘要】
文本改写方法、装置、终端设备以及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种文本改写方法
、
装置
、
终端设备以及存储介质
。
技术介绍
[0002]目前,搜索引擎已经成为人们获取信息的主要渠道之一
。
但由于用户在使用搜索引擎时,使用的关键词可能存在语义模糊或歧义,因此需要对输入的文本进行改写以提高搜索结果的准确性
。
传统的搜索引擎改写方案使用同义词词典和文本相似度来进行文本改写,但存在如下问题:
[0003]一方面,同义词词典虽然可以处理一些特定的同义词转换,但是无法覆盖所有可能的同义词关系,如果用户的用户搜索词不在同义词词典中,就难以得到准确的改写结果,即便用户搜索词在同义词词典中,也难以使用词典中的同义词涵盖所有不同变形的同义词
。
另一方面,使用文本相似度来进行改写需要大量的高质量改写示例进行训练,但这需要耗费大量的人工标注成本,同时,这种方法在处理长尾词
(
出现频率较低的词汇
)
时效果可能不好
。
[0004]是以,有必要提出一种改善文本改写质量和泛化能力的方案
。
技术实现思路
[0005]本申请的主要目的在于提供一种文本改写方法
、
装置
、
终端设备以及存储介质,旨在解决文本改写质量和泛化能力差的技术问题
。
[0006]为实现上述目的,本申请提供一种文本改写方 ...
【技术保护点】
【技术特征摘要】
1.
一种文本改写方法,其特征在于,所述文本改写方法包括以下步骤:获取用户搜索词;将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果,其中,所述文本改写模型基于预设二分类判别模型以及序列转换模型协同训练得到
。2.
如权利要求1所述的文本改写方法,其特征在于,所述将所述用户搜索词输入预先训练好的文本改写模型中进行文本泛化,得到改写结果的步骤之前,还包括:构建所述二分类判别模型,并基于所述序列转换模型,构建文本改写模型;将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别结果,基于所述判别结果及预设第一收敛条件,训练所述二分类判别模型,得到训练好的二分类判别模型;将所述训练语料输入所述训练好的二分类判别模型中进行判别计算,得到优化后的训练语料;将所述优化后的训练语料输入所述文本改写模型中进行处理,得到处理结果,基于所述处理结果及预设第二收敛条件,训练所述文本改写模型,得到训练好的文本改写模型
。3.
如权利要求2所述的文本改写方法,其特征在于,所述基于所述处理结果及预设第二收敛条件,训练所述文本改写模型,得到训练好的文本改写模型的步骤包括:将所述处理结果作为所述训练语料,返回执行所述将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别结果,基于所述判别结果及预设第一收敛条件,训练所述二分类判别模型,得到训练好的二分类判别模型以及之后的步骤;以此循环,进行参数迭代,直到所述文本改写模型收敛,终止训练,得到训练好的文本改写模型
。4.
如权利要求3所述的文本改写方法,其特征在于,所述将所述处理结果作为所述训练语料的步骤包括:从所述处理结果中抽选若干改写词对;在所述若干改写词对中,分别确定正例及反例,得到所述训练语料
。5.
如权利要求2所述的文本改写方法,其特征在于,所述将预先获取的训练语料输入所述二分类判别模型中进行判别,得到判别...
【专利技术属性】
技术研发人员:刘帆,胡峥辉,梁剑锋,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。