一种文本改写的方法以及相关设备技术

技术编号:19964400 阅读:31 留言:0更新日期:2019-01-03 12:54
本发明专利技术实施例提供了一种文本改写的方法及相关设备,用于提高文本改写的合理性。本发明专利技术实施例方法包括:将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。

A Text Rewriting Method and Related Equipment

The embodiment of the present invention provides a method of text rewriting and related equipment for improving the rationality of text rewriting. The embodiment method of the present invention includes: participle the target text input by the user to obtain the first participle set, which includes at least one participle; rewrite each participle in the first participle set separately to obtain the second participle set, each participle in the second participle set and each participle in the first participle set. With respect to association, and each participle in the first participle set corresponds to at least one participle in the second participle set; calculates the semantic loss of each participle in the second participle set, which is the difference between the participle in the first participle set and the corresponding participle in the second participle set; and determines the semantic loss in the second participle set. A participle missing less than the preset value is used as a rewriting candidate for the target text.

【技术实现步骤摘要】
一种文本改写的方法以及相关设备
本专利技术涉及搜索领域,尤其涉及一种文本改写的方法以及相关设备。
技术介绍
在直播平台上,搜索是非常重要的一个入口,用户输入的搜索文本代表用户的某种意图。一个具有良好体验的搜索功能希望在用户输入的文本基础上进行一些模糊改写,改写的目的是扩充用户的意图表达,这样当用户看到改写的搜索文本时可能会认为改写的文本更加符合其意图或者丰富了用户的意图。然而,现有的改写通常是将相近或者相似得词作为候选,但是,这种改写没有考虑到改写的合理性,也即没有考虑改写后的意思不能违背用户的初衷,例如某些相近或者相似的候选词意思并不相同,也不相近,给用户造成误导,影响用户体验。
技术实现思路
本专利技术实施例提供了一种文本改写的方法以及相关设备,用于提高文本改写的合理性,提高用户体验。本专利技术实施例的第一方面提供了一种文本改写的方法,包括:将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每本文档来自技高网...

【技术保护点】
1.一种文本改写的方法,其特征在于,包括:将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。

【技术特征摘要】
1.一种文本改写的方法,其特征在于,包括:将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。2.根据权利要求1所述的方法,其特征在于,所述计算所述第二分词集合中的每个分词的语义损失包括:通过如下公式计算所述第二分词集合中的每个分词的语义损失:其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0是所述q0中的任一分词,所述wt是所述t对应的权重,所述f(t|t0)为将所述t替换为所述t0的收益。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:通过如下公式计算所述S(q):其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数,norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数,norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:通过如下公式计算所述q在所述预设时长内的点击率:其中,xir是标准化前的第i个评价指标,min(x′i)为所述预设时长内的所有搜索文本中第i个评价指标的最小值,max(x′i)是所述预设时长内的所有搜索文本中第i个评价指标的最大值。5.根据权利要求2所述的...

【专利技术属性】
技术研发人员:王璐张文明陈少杰
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1