语段处理方法及相关设备技术

技术编号:39282474 阅读:11 留言:0更新日期:2023-11-07 10:55
本申请公开了语段处理方法及相关设备,该方法包括:获取原输入语段中每一原字符的形近字符;将各原字符替换为各自对应的形近字符,以得到原输入语段的多个形近语段;根据各形近语段在历史记录中的热度得分,从多个形近语段中选定目标语段,目标语段用于提供原输入语段对应的目标搜索结果。用形近字符对每一原字符进行字符替换,有助于提前获悉原输入语段可能发生的形近输入示例是哪些形近语段,从而应对可能发生的错误输入状况,增强对语段字符的形近纠错效果;根据热度得分从多个形近语段中选定目标语段,可有效纠查并滤除难以获得目标搜索结果的部分形近语段,从而增强对原输入语段的正确语义的识别效率,提升用户的搜索体验。提升用户的搜索体验。提升用户的搜索体验。

【技术实现步骤摘要】
语段处理方法及相关设备


[0001]本申请实施例涉及互联网
,尤其涉及语段处理方法及相关设备。

技术介绍

[0002]音频播放平台、购物平台或浏览器界面等应用中,用户的输入信息(query)如搜索语段经常有错字等错误输入的情况,不对该原始query进行合理的纠错,将无法给用户提供正确的纠错后搜索结果,致使用户因输入错误而找不到想要的内容。
[0003]然而,现有方式对query内错误字符的发现效果不佳,通常只能纠出当中一个错误字符,尤其面对一query中存在多个形近错字的情况,现有方式难以完整地发现各错误字符,进而无法为用户真正匹配到正确的搜索结果。针对于此,亟待提供有效的解决方案。

技术实现思路

[0004]本申请实施例提供了语段处理方法及相关设备,用于提高对输入语段的纠错效果,增强搜索结果的准确率。
[0005]本申请实施例第一方面提供一种语段处理方法,包括:
[0006]获取原输入语段中每一原字符的形近字符;
[0007]将各所述原字符替换为各自对应的所述形近字符,以得到所述原输入语段的多个形近语段;
[0008]根据各所述形近语段在历史记录中的热度得分,从所述多个形近语段中选定目标语段,所述目标语段用于提供所述原输入语段对应的目标搜索结果。
[0009]可选地,所述将各所述原字符替换为各自对应的所述形近字符,以得到所述原输入语段的多个形近语段,包括:
[0010]对于共n位所述原字符中的每一位原字符,将当前语段中的第i位所述替换成对应的每一所述形近字符,以得到相对于所述当前语段字符有换的多个候选语段;其中,所述i为0至n

1中的任一值,所述当前语段指所述原输入语段中共i位原字符被替换后的语段,初始时所述当前语段为所述原输入语段;
[0011]将多个所述候选语段分别作为下一所述当前语段,返回执行将当前语段中的第i位所述替换成对应的每一所述形近字符的步骤,直至每一位均发生字符替换后,将最终得到的候选语段选作为所述形近语段。
[0012]可选地,所述得到相对于所述当前语段字符有换的多个候选语段,包括:
[0013]计算各个所述候选语段相对于所述原输入语段分别产生的替换概率,并获得各个所述候选语段在历史记录内的热度得分;
[0014]根据所述替换概率和/或所述热度得分,对各个所述候选语段进行从大到小的排序,以选取排先的预设数目个所述候选语段作为下一所述当前语段。
[0015]可选地,所述替换概率的计算过程,包括:
[0016]对于各个所述候选语段中作替补的每一所述形近字符,计算每一所述形近字符和
各自被换的所述原字符之间的形近相似度,所述形近相似度根据两字符之间的相似得分和对应的历史搜索率加权算得;
[0017]根据各所述候选语段的语段模型得分和相应的所述形近相似度,算得所述原输入语段被换为各所述候选语段所产生的所述替换概率;所述语段模型得分指所述候选语段出现在语段模型语料中的统计频次。
[0018]可选地,所述根据各所述形近语段在历史记录中的热度得分,从所述多个形近语段中选定目标语段,包括:
[0019]滤除所述多个形近语段中热度得分小于所述原输入语段热度得分的语段,和/或,滤除所述多个形近语段中热度得分小于预设热度分的语段;所述热度得分包含语段在历史记录中的搜索频次和/或点击量;
[0020]将余留下的所述多个形近语段确定为目标语段。
[0021]可选地,获取原输入语段中每一原字符的形近字符之前,所述方法还包括:
[0022]构建记录有多组形近字符对的形近字典,所述形近字符对中每一字符与相应的形近字符之间的相似得分超过预设相似分,所述形近字典用于遍历查得每一所述原字符对应有的所述形近字符;
[0023]或,
[0024]通过预设组数的字符组训练得字符预测模型,所述字符组指现有字符和相应形近字符构成的字符对,所述字符预测模型用于预测所述原字符对应的形近字符。
[0025]可选地,所述构建记录有多组形近字符对的形近字典,包括:
[0026]对预设数目个现有字符进行两两组合,以得到多组字符对;
[0027]计算每组所述字符对中两字符之间的至少一类相似特征分,所述相似特征分的类别包含笔画数相似得分、字符结构相似得分、四角码相似得分、拆字相似得分、拼音相似得分或向量相似得分,所述向量相似得分指所述两字符各自对应的向量之间的向量相似度;
[0028]根据算得的至少一类所述相似特征分,选取预设组字符对作为预构成所述形近字典的形近字符对。
[0029]可选地,所述根据算得的至少一类所述相似特征分,选取预设组字符对作为预构成所述形近字典的形近字符对,包括:
[0030]加权计算每组所述字符对的至少两类所述相似特征分,并滤除加权结果低于预设结果的所述字符对;
[0031]从余留的多组所述字符对中,选取加权结果按从大到小排序排在前预设组的作为每个字符的候选字符对,将所述候选字符对作为所述形近字符对。
[0032]可选地,从余留的多组所述字符对中,选取加权结果按从大到小排序排在前预设组的作为每个字符的候选字符对之后,所述方法还包括:
[0033]获取历史时段内所有历史输入语段的搜索量,并保留所述搜索量超过预设量的所述历史输入语段;
[0034]为留下的每一所述历史输入语段生成多个含错语段,所述含错语段相比所述历史输入语段仅含一替补字符,所述替补字符为任一所述候选字符对中的形近字符;
[0035]计算历史时段内每一所述含错语段的搜索量相对于全部带错语段的总搜索量的占比,并将每一所述占比作为相应所述候选字符对的历史搜索率;所述带错语段含有所述
含错语段中的替补字符;
[0036]根据所述历史搜索率和所述加权结果加权计算各所述候选字符对的形近相似度,并滤除所述形近相似度小于预设相似度的所述候选字符对。
[0037]可选地,所述形近字符包含所述原字符本身。
[0038]本申请实施例第二方面提供一种电子设备,包括:
[0039]中央处理器,存储器以及输入输出接口;
[0040]所述存储器为短暂存储存储器或持久存储存储器;
[0041]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。
[0042]本申请实施例第三方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。
[0043]本申请实施例第四方面提供一种包含指令或计算机程序的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。
[0044]从以上技术方案可以看出,本申请实施例至少具有以下优点:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语段处理方法,其特征在于,包括:获取原输入语段中每一原字符的形近字符;将各所述原字符替换为各自对应的所述形近字符,以得到所述原输入语段的多个形近语段;根据各所述形近语段在历史记录中的热度得分,从所述多个形近语段中选定目标语段,所述目标语段用于提供所述原输入语段对应的目标搜索结果。2.根据权利要求1所述的语段处理方法,其特征在于,所述将各所述原字符替换为各自对应的所述形近字符,以得到所述原输入语段的多个形近语段,包括:对于共n位所述原字符中的每一位原字符,将当前语段中的第i位所述原字符替换成对应的每一所述形近字符,以得到相对于所述当前语段字符有换的多个候选语段;其中,所述i为0至n

1中的任一值,所述当前语段指所述原输入语段中共i位原字符被替换后的语段,初始时所述当前语段为所述原输入语段;将多个所述候选语段分别作为下一所述当前语段,返回执行将当前语段中的第i位所述原字符替换成对应的每一所述形近字符的步骤,直至每一位原字符均发生字符替换后,将最终得到的候选语段选作为所述形近语段。3.根据权利要求2所述的语段处理方法,其特征在于,所述得到相对于所述当前语段字符有换的多个候选语段,包括:计算各个所述候选语段相对于所述原输入语段分别产生的替换概率,并获得各个所述候选语段在历史记录内的热度得分;根据所述替换概率和/或所述热度得分,对各个所述候选语段进行从大到小的排序,以选取排先的预设数目个所述候选语段作为下一所述当前语段。4.根据权利要求3所述的语段处理方法,其特征在于,所述替换概率的计算过程,包括:对于各个所述候选语段中作替补的每一所述形近字符,计算每一所述形近字符和各自被换的所述原字符之间的形近相似度,所述形近相似度根据两字符之间的相似得分和对应的历史搜索率加权算得;根据各所述候选语段的语段模型得分和相应的所述形近相似度,算得所述原输入语段被换为各所述候选语段所产生的所述替换概率;所述语段模型得分指所述候选语段出现在语段模型语料中的统计频次。5.根据权利要求1所述的语段处理方法,其特征在于,所述根据各所述形近语段在历史记录中的热度得分,从所述多个形近语段中选定目标语段,包括:滤除所述多个形近语段中热度得分小于所述原输入语段热度得分的语段,和/或,滤除所述多个形近语段中热度得分小于预设热度分的语段;所述热度得分包含语段在历史记录中的搜索频次和/或点击量;将余留下的所述多个形近语段确定为目标语段。6.根据权利要求1所述的语段处理方法,其特征在于,获取原输入语段中每一原字符的形近字符之前,所述方法还包括:构建记录有多组形...

【专利技术属性】
技术研发人员:杨羽菲周蓝珺潘树燊
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1