模型训练方法、语句纠错方法及相关设备技术

技术编号:40468218 阅读:19 留言:0更新日期:2024-02-22 23:23
本申请公开了模型训练方法、语句纠错方法及相关设备,该语句纠错方法包括:将含错语句的特征序列输入目标纠错模型,以输出含错语句对应分配到的预测特征序列;从特征索引库中,查找预设组数的相似特征序列作为含错语句的候选特征序列;将其中一候选特征序列对应的正确语句,作为对含错语句的纠错结果。本申请可通过含错语句在拼音、字符和字形等多方面的特征,不计语句长度地确定出含错语句正确对应的特征,保障用户即便多点位输错字符,而影响了语句在拼音、字符和字形等任一特征表达的情况下,也能依赖特征序列中的其他特征关联性地对含错语句纠错,从而高召回率地反馈正确的搜索结果,提升用户体验。

【技术实现步骤摘要】

本申请实施例涉及数据处理,尤其涉及模型训练方法、语句纠错方法及相关设备


技术介绍

1、音频播放平台、购物平台或浏览器界面等应用中,用户输入的查询语句(query)经常有错字等错误输入的情况,若不对该原始query进行合理的纠错,将无法给用户反馈正确的搜索结果,致使用户因输入错误而找不到想要的内容。

2、以歌曲搜索场景为例,目前,对query的纠错方式主要是切片召回方式,即将曲库中已有的歌曲名、歌手名、专辑名等数据根据其长度切片,由该切片片段查找query正确对应的搜索语句。而这一方法能成功实施的前提是,用户在查找某个内容时,至少会输入一段足够长度的无错片段,例如当用户想要查找“月上柳梢头”,但却输入“月下柳梢头”时,由于存在长度为3的无错片段“柳梢头”,故能够召回正确的候选语句“月上柳梢头”;但当用户仍然想要查找“月上柳梢头”,却输入“月下柳上梢”等多点位含错语句时,由于不存在足够长的无错片段,会导致无法召回正确语句。

3、因此,有必要提供有效的解决方案。


技术实现思路>

1、本申请实本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述字形预测特征的过程,包括:

3.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述拼音预测特征的过程,包括:

4.一种语句纠错方法,其特征在于,包括:

5.根据权利要求4所述的语句纠错方法,其特征在于,所述从特征索引库中,查找预设组数的相似特征序列作为所述含错语句的候选特征序列,包括:

6.根据权利要求4所述的语句纠错方法,其特征在于,从特征索引库中,查找预设组数的相似特征序列作为所述含错语...

【技术特征摘要】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述字形预测特征的过程,包括:

3.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述拼音预测特征的过程,包括:

4.一种语句纠错方法,其特征在于,包括:

5.根据权利要求4所述的语句纠错方法,其特征在于,所述从特征索引库中,查找预设组数的相似特征序列作为所述含错语句的候选特征序列,包括:

6.根据权利要求4所述的语句纠错方法,其特征在于,从特...

【专利技术属性】
技术研发人员:杨羽菲周蓝珺潘树燊
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1