【技术实现步骤摘要】
一种语料处理以及模型训练的方法及系统
本专利技术涉及计算机系统,特别涉及一种语料处理进行模型训练的方法及系统。
技术介绍
随着互联网的发展与普及,越来越多的人习惯于通过计算设备获取知识、信息以及服务。高效快捷的搜索也成为人们生活中不可或缺的一部分。在搜索框中输入检索词是最常见的搜索方式。在实际使用过程中,常常出现检索词输入错误、输入检索词遗漏字符等问题。为了解决上述问题,人们提出了检索词纠错方法。
技术实现思路
本专利技术提供了一种语料处理方法,具体包括获取用户输入的检索词与选择的结果,组合输入的检索词与选择的结果形成至少一组语料对,基于至少一组语料对构造平行语料,进而得到平行语料库。获得的平行语料可以用来训练检索词纠错模型,使得该模型能自动对用户输入的检索词进行纠错。获得的平行语料还可以用在其他场景,例如机器翻译、输入法纠错等。第一方面,本专利技术披露了一种语料处理的方法。该方法包括:获取用户输入的检索词与选择的结果;组合输入的检索词与选择的结果形成至少一组语料对;基于所述至少一组语料对 ...
【技术保护点】
1.一种语料处理方法,其特征在于,包括:/n获取用户输入的检索词与选择的结果;/n组合输入的检索词与选择的结果形成至少一组语料对;/n基于所述至少一组语料对构造平行语料,进而得到平行语料库。/n
【技术特征摘要】
1.一种语料处理方法,其特征在于,包括:
获取用户输入的检索词与选择的结果;
组合输入的检索词与选择的结果形成至少一组语料对;
基于所述至少一组语料对构造平行语料,进而得到平行语料库。
2.如权利要求1所述的方法,其特征在于,还包括
基于用户日志挖掘用户会话;
基于所述用户会话获取用户输入的检索词与选择的结果。
3.如权利要求2所述的方法,其特征在于,基于用户日志挖掘用户会话的步骤,进一步包括:
基于用户标识符及设定时间段,从所述用户日志中筛选出同一用户在所述设定时间段内的操作,进而得到所述用户会话。
4.如权利要求1所述的方法,其特征在于,还包括过滤所述至少一组语料对,并将过滤后的所述至少一组语料对构造为平行语料。
5.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:排除输入的检索词长度大于预设阈值的语料。
6.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:排除输入的检索词是选择的结果的前缀字符串的语料。
7.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:统计各条语料的内部编辑距离,并排除内部编辑距离大于预设阈值的语料。
8.如权利要求4所述的方法,其特征在于,过滤所述至少一组语料对的步骤,进一步包括:统计各条语料的内部转移概率,排除内部转移概率小于预设阈值的语料。
9.一种语料处理的系统,其特征在于,包括:
挖掘模块,用于挖掘用户会话;
获取模块,用于获取所述用户会话中用户输入的检索词和选择的结果;
组合模块,用于组合输入的检索词与选择的结果形成至少一组语料对;
构造模块,用于基于所述至少一组语料对构造平行语料库。
10.如权利要求9所述的系统,其特征在于,所述挖掘模块还用于:
基于用户日志挖掘所述用户会话。
11.如权利要求10所述的系...
【专利技术属性】
技术研发人员:胡娟,陈欢,宋奇,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。