语段处理方法及相关设备技术

技术编号：39282474 阅读：11 留言：0更新日期：2023-11-07 10:55

本申请公开了语段处理方法及相关设备，该方法包括：获取原输入语段中每一原字符的形近字符；将各原字符替换为各自对应的形近字符，以得到原输入语段的多个形近语段；根据各形近语段在历史记录中的热度得分，从多个形近语段中选定目标语段，目标语段用于提供原输入语段对应的目标搜索结果。用形近字符对每一原字符进行字符替换，有助于提前获悉原输入语段可能发生的形近输入示例是哪些形近语段，从而应对可能发生的错误输入状况，增强对语段字符的形近纠错效果；根据热度得分从多个形近语段中选定目标语段，可有效纠查并滤除难以获得目标搜索结果的部分形近语段，从而增强对原输入语段的正确语义的识别效率，提升用户的搜索体验。提升用户的搜索体验。提升用户的搜索体验。

全部详细技术资料下载

【技术实现步骤摘要】
语段处理方法及相关设备

[0001]本申请实施例涉及互联网
，尤其涉及语段处理方法及相关设备。

技术介绍

[0002]音频播放平台、购物平台或浏览器界面等应用中，用户的输入信息(query)如搜索语段经常有错字等错误输入的情况，不对该原始query进行合理的纠错，将无法给用户提供正确的纠错后搜索结果，致使用户因输入错误而找不到想要的内容。
[0003]然而，现有方式对query内错误字符的发现效果不佳，通常只能纠出当中一个错误字符，尤其面对一query中存在多个形近错字的情况，现有方式难以完整地发现各错误字符，进而无法为用户真正匹配到正确的搜索结果。针对于此，亟待提供有效的解决方案。

技术实现思路

[0004]本申请实施例提供了语段处理方法及相关设备，用于提高对输入语段的纠错效果，增强搜索结果的准确率。
[0005]本申请实施例第一方面提供一种语段处理方法，包括：
[0006]获取原输入语段中每一原字符的形近字符；
[0007]将各所述原字符替换为各自对应的所述形近字符，以得到所述原输入语段的多个形近语段；
[0008]根据各所述形近语段在历史记录中的热度得分，从所述多个形近语段中选定目标语段，所述目标语段用于提供所述原输入语段对应的目标搜索结果。
[0009]可选地，所述将各所述原字符替换为各自对应的所述形近字符，以得到所述原输入语段的多个形近语段，包括：
[0010]对于共n位所述原字符中的每一位原字符，将当前语段中的第i位所述替换成对...

【技术保护点】

【技术特征摘要】
1.一种语段处理方法，其特征在于，包括：获取原输入语段中每一原字符的形近字符；将各所述原字符替换为各自对应的所述形近字符，以得到所述原输入语段的多个形近语段；根据各所述形近语段在历史记录中的热度得分，从所述多个形近语段中选定目标语段，所述目标语段用于提供所述原输入语段对应的目标搜索结果。2.根据权利要求1所述的语段处理方法，其特征在于，所述将各所述原字符替换为各自对应的所述形近字符，以得到所述原输入语段的多个形近语段，包括：对于共n位所述原字符中的每一位原字符，将当前语段中的第i位所述原字符替换成对应的每一所述形近字符，以得到相对于所述当前语段字符有换的多个候选语段；其中，所述i为0至n
‑
1中的任一值，所述当前语段指所述原输入语段中共i位原字符被替换后的语段，初始时所述当前语段为所述原输入语段；将多个所述候选语段分别作为下一所述当前语段，返回执行将当前语段中的第i位所述原字符替换成对应的每一所述形近字符的步骤，直至每一位原字符均发生字符替换后，将最终得到的候选语段选作为所述形近语段。3.根据权利要求2所述的语段处理方法，其特征在于，所述得到相对于所述当前语段字符有换的多个候选语段，包括：计算各个所述候选语段相对于所述原输入语段分别产生的替换概率，并获得各个所述候选语段在历史记录内的热度得分；根据所述替换概率和/或所述热度得分，对各个所述候选语段进行从大到小的排序，以选取排先的预设数目个所述候选语段作为下一所述当前语段。4.根据权利要求3所述的语段处理方法，其特征在于，所述替换概率的计算过程，包括：对于各个所述候选语段中作替补的每一所述形近字符，计算每一所述形近字符和各自被换的所述原字符之间的形近相似度，所述形近相似度根据两字符之间的相似得分和对应的历史搜索率加权算得；根据各所述候选语段的语段模型得分和相应的所述形近相似度，算得所述原输入语段被换为各所述候选语段所产生的所述替换概率；所述语段模型得分指所述候选语段出现在语段模型语料中的统计频次。5.根据权利要求1所述的语段处理方法，其特征在于，所述根据各所述形近语段在历史记录中的热度得分，从所述多个形近语段中选定目标语段，包括：滤除所述多个形近语段中热度得分小于所述原输入语段热度得分的语段，和/或，滤除所述多个形近语段中热度得分小于预设热度分的语段；所述热度得分包含语段在历史记录中的搜索频次和/或点击量；将余留下的所述多个形近语段确定为目标语段。6.根据权利要求1所述的语段处理方法，其特征在于，获取原输入语段中每一原字符的形近字符之前，所述方法还包括：构建记录有多组形...

【专利技术属性】
技术研发人员：杨羽菲，周蓝珺，潘树燊，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人