System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法、语句纠错方法及相关设备技术_技高网

模型训练方法、语句纠错方法及相关设备技术

技术编号:40468218 阅读:9 留言:0更新日期:2024-02-22 23:23
本申请公开了模型训练方法、语句纠错方法及相关设备,该语句纠错方法包括:将含错语句的特征序列输入目标纠错模型,以输出含错语句对应分配到的预测特征序列;从特征索引库中,查找预设组数的相似特征序列作为含错语句的候选特征序列;将其中一候选特征序列对应的正确语句,作为对含错语句的纠错结果。本申请可通过含错语句在拼音、字符和字形等多方面的特征,不计语句长度地确定出含错语句正确对应的特征,保障用户即便多点位输错字符,而影响了语句在拼音、字符和字形等任一特征表达的情况下,也能依赖特征序列中的其他特征关联性地对含错语句纠错,从而高召回率地反馈正确的搜索结果,提升用户体验。

【技术实现步骤摘要】

本申请实施例涉及数据处理,尤其涉及模型训练方法、语句纠错方法及相关设备


技术介绍

1、音频播放平台、购物平台或浏览器界面等应用中,用户输入的查询语句(query)经常有错字等错误输入的情况,若不对该原始query进行合理的纠错,将无法给用户反馈正确的搜索结果,致使用户因输入错误而找不到想要的内容。

2、以歌曲搜索场景为例,目前,对query的纠错方式主要是切片召回方式,即将曲库中已有的歌曲名、歌手名、专辑名等数据根据其长度切片,由该切片片段查找query正确对应的搜索语句。而这一方法能成功实施的前提是,用户在查找某个内容时,至少会输入一段足够长度的无错片段,例如当用户想要查找“月上柳梢头”,但却输入“月下柳梢头”时,由于存在长度为3的无错片段“柳梢头”,故能够召回正确的候选语句“月上柳梢头”;但当用户仍然想要查找“月上柳梢头”,却输入“月下柳上梢”等多点位含错语句时,由于不存在足够长的无错片段,会导致无法召回正确语句。

3、因此,有必要提供有效的解决方案。


技术实现思路

1、本申请实施例提供了模型训练方法、语句纠错方法及相关设备,用于提高对含错语句的纠错效率。

2、本申请实施例第一方面提供一种模型训练方法,包括:

3、获取含错样本的特征序列,所述含错样本包括含近音错字的音近语句、含形近错字的形近语句,所述特征序列包含所述含错样本中各字符的原拼音特征、原字符特征和原字形特征;

4、将所述特征序列输入初始纠错模型,以输出各字符对应分配到的拼音预测特征、字符预测特征、字形预测特征;

5、基于所述原拼音特征、所述原字符特征、所述原字形特征分别被预测成所述拼音预测特征、所述字符预测特征、所述字形预测特征的概率,计算所述初始纠错模型的拼音预测损失、字符预测损失和字形预测损失;

6、根据所述拼音预测损失、所述字符预测损失和所述字形预测损失之间的加权融合结果,调整所述初始纠错模型的模型参数,直至所述加权融合结果达到收敛条件时,得到目标纠错模型。

7、本申请实施例第二方面提供一种语句纠错方法,包括:

8、获取含错语句的特征序列,所述特征序列包含所述含错语句中各字符的原拼音特征、原字符特征和原字形特征;

9、将所述特征序列输入目标纠错模型,以输出所述含错语句对应分配到的预测特征序列;所述预测特征序列包含各字符的拼音预测特征、字符预测特征、字形预测特征,所述目标纠错模型包括根据权利要求1至3中任一项所述的模型训练方法训练得到;

10、从特征索引库中,查找预设组数的相似特征序列作为所述含错语句的候选特征序列,所述相似特征序列与所述预测特征序列的相似度超过相似阈值;

11、将其中一所述候选特征序列对应的正确语句,作为对所述含错语句的纠错结果。

12、本申请第二方面所述的方法在具体实施时,可采用本申请第一方面所述的内容实现。

13、本申请实施例第三方面提供一种电子设备,包括:

14、中央处理器,存储器以及输入输出接口;

15、所述存储器为短暂存储存储器或持久存储存储器;

16、所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

17、本申请实施例第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

18、本申请实施例第五方面提供一种包含指令或计算机程序的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

19、从以上技术方案可以看出,本申请实施例至少具有以下优点:

20、本申请实施例可通过含错语句在拼音、字符和字形等多方面的特征,不计语句长度地确定出含错语句正确对应的特征,保障用户即便多点位输错字符,而影响了语句在拼音、字符和字形等任一特征表达的情况下,也能依赖特征序列中的其他特征关联性地对含错语句纠错,从而高召回率地反馈正确的搜索结果,提升用户体验。

本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述字形预测特征的过程,包括:

3.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述拼音预测特征的过程,包括:

4.一种语句纠错方法,其特征在于,包括:

5.根据权利要求4所述的语句纠错方法,其特征在于,所述从特征索引库中,查找预设组数的相似特征序列作为所述含错语句的候选特征序列,包括:

6.根据权利要求4所述的语句纠错方法,其特征在于,从特征索引库中,查找预设组数的相似特征序列作为所述含错语句的候选特征序列之前,所述方法还包括:

7.根据权利要求6所述的语句纠错方法,其特征在于,所述目标对比学习模型的训练过程,包括:

8.根据权利要求4所述的语句纠错方法,其特征在于,所述将其中一所述候选特征序列对应的正确语句,作为对所述含错语句的纠错结果,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至3或4至8中任意一项所述的方法。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述字形预测特征的过程,包括:

3.根据权利要求1所述的模型训练方法,其特征在于,输出各字符对应分配到的所述拼音预测特征的过程,包括:

4.一种语句纠错方法,其特征在于,包括:

5.根据权利要求4所述的语句纠错方法,其特征在于,所述从特征索引库中,查找预设组数的相似特征序列作为所述含错语句的候选特征序列,包括:

6.根据权利要求4所述的语句纠错方法,其特征在于,从特...

【专利技术属性】
技术研发人员:杨羽菲周蓝珺潘树燊
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1