一种语料处理以及模型训练的方法及系统技术方案

技术编号：23512840 阅读：38 留言：0更新日期：2020-03-18 00:08

一种语料处理以及模型训练的方法及系统。所述方法包括：挖掘用户会话；获取用户输入的检索词与选择的结果；组合输入的检索词与选择的结果形成至少一组语料对；基于所述至少一组语料对构造平行语料。获得的平行语料可以进一步进行模型训练。本发明专利技术提供的方法可以通过挖掘用户会话，分析用户检索过程中的自纠错行为，获取平行语料，将平行语料库作为样本进行模型训练，建立检索词纠错模型。

A method and system of corpus processing and model training

全部详细技术资料下载

【技术实现步骤摘要】
一种语料处理以及模型训练的方法及系统
本专利技术涉及计算机系统，特别涉及一种语料处理进行模型训练的方法及系统。
技术介绍
随着互联网的发展与普及，越来越多的人习惯于通过计算设备获取知识、信息以及服务。高效快捷的搜索也成为人们生活中不可或缺的一部分。在搜索框中输入检索词是最常见的搜索方式。在实际使用过程中，常常出现检索词输入错误、输入检索词遗漏字符等问题。为了解决上述问题，人们提出了检索词纠错方法。
技术实现思路
本专利技术提供了一种语料处理方法，具体包括获取用户输入的检索词与选择的结果，组合输入的检索词与选择的结果形成至少一组语料对，基于至少一组语料对构造平行语料，进而得到平行语料库。获得的平行语料可以用来训练检索词纠错模型，使得该模型能自动对用户输入的检索词进行纠错。获得的平行语料还可以用在其他场景，例如机器翻译、输入法纠错等。第一方面，本专利技术披露了一种语料处理的方法。该方法包括：获取用户输入的检索词与选择的结果；组合输入的检索词与选择的结果形成至少一组语料对；基于所述至少一组语料对...

【技术保护点】
1.一种语料处理方法，其特征在于，包括：/n获取用户输入的检索词与选择的结果；/n组合输入的检索词与选择的结果形成至少一组语料对；/n基于所述至少一组语料对构造平行语料，进而得到平行语料库。/n

【技术特征摘要】
1.一种语料处理方法，其特征在于，包括：
获取用户输入的检索词与选择的结果；
组合输入的检索词与选择的结果形成至少一组语料对；
基于所述至少一组语料对构造平行语料，进而得到平行语料库。

2.如权利要求1所述的方法，其特征在于，还包括
基于用户日志挖掘用户会话；
基于所述用户会话获取用户输入的检索词与选择的结果。

3.如权利要求2所述的方法，其特征在于，基于用户日志挖掘用户会话的步骤，进一步包括：
基于用户标识符及设定时间段，从所述用户日志中筛选出同一用户在所述设定时间段内的操作，进而得到所述用户会话。

4.如权利要求1所述的方法，其特征在于，还包括过滤所述至少一组语料对，并将过滤后的所述至少一组语料对构造为平行语料。

5.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：排除输入的检索词长度大于预设阈值的语料。

6.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：排除输入的检索词是选择的结果的前缀字符串的语料。

7.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部编辑距离，并排除内部编辑距离大于预设阈值的语料。

8.如权利要求4所述的方法，其特征在于，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部转移概率，排除内部转移概率小于预设阈值的语料。

9.一种语料处理的系统，其特征在于，包括：
挖掘模块，用于挖掘用户会话；
获取模块，用于获取所述用户会话中用户输入的检索词和选择的结果；
组合模块，用于组合输入的检索词与选择的结果形成至少一组语料对；
构造模块，用于基于所述至少一组语料对构造平行语料库。

10.如权利要求9所述的系统，其特征在于，所述挖掘模块还用于：
基于用户日志挖掘所述用户会话。

11.如权利要求10所述的系...

【专利技术属性】
技术研发人员：胡娟，陈欢，宋奇，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人