一种自动生成纠错语料的方法和系统技术方案

技术编号:27818345 阅读:19 留言:0更新日期:2021-03-30 10:24
本公开提供了一种自动生成纠错语料的方法和系统,所述方法包括:获取正确的语料,触发一个拼音转移图;根据所述语料的字权重和出错权重,得到改错点;将所述改错点的字符映射为所述拼音转移图的对应节点,以所述对应节点为起点,根据所述拼音转移图的边权重进行转移,得到转移后的拼音节点;根据所述转移后的拼音节点和错误模型,将所述转移后的拼音节点转换为对应的平行语料;将所述平行语料通过分类模型,得到所述平行语料的可信度,根据所述可信度,判断是否采纳所述平行语料作为所述纠错语料。料。料。

【技术实现步骤摘要】
一种自动生成纠错语料的方法和系统


[0001]本公开涉及信息
,特别涉及一种自动生成纠错语料的方法、系统、电子设备及计算机可读介质。

技术介绍

[0002]目前,在终端设备上输入汉字的输入法以拼音方式为主,由于诸多客观原因,输入时出错率较高。
[0003]在某些业务场景中,例如在搜索引擎中搜索关键词,自动纠错的功能就尤为重要。但是,在搜索引擎的自动纠错系统中,一个比较复杂的问题在于如何生产用来训练自动纠错模型的语料。生产的纠错语料越多,准确性越高,越有利于后续基于纠错语料进行模型训练和优化。
[0004]目前生产纠错语料的方法主要都是人工对齐或者是半自动对齐,这些对齐方法依赖于两次连续用户语料的对齐,需要大量的人力标注成本,并且严重依赖于用户历史行为,导致挖掘出的语料缺少对长尾样本的覆盖。
[0005]因此,急需一种自动生成纠错语料的方法,通过模拟用户拼音输入行为直接生成纠错语料,无需人工标注,用更低的成本生成更大规模的、更可信的和更符合用户习惯的拼写错误语料的纠错语料数据集。

技术实现思路

[0006]有鉴于此,本公开实施例的目的在于提供一种自动生成纠错语料的方法,通过模拟用户拼音输入行为直接生成纠错语料,无需人工标注,用更低的成本生成更大规模的、更可信的和更符合用户习惯的拼写错误语料的纠错语料数据集。
[0007]根据本公开的第一方面,提供了一种自动生成纠错语料的方法,包括:获取正确的语料,触发一个拼音转移图;根据所述语料的字权重和出错权重,得到改错点;将所述改错点的字符映射为所述拼音转移图的对应节点,以所述对应节点为起点,根据所述拼音转移图的边权重进行转移,得到转移后的拼音节点;根据所述转移后的拼音节点和错误模型,将所述转移后的拼音节点转换为对应的平行语料;将所述平行语料通过分类模型,得到所述平行语料的可信度,根据所述可信度,判断是否采纳所述平行语料作为所述纠错语料。
[0008]在一个可能的实施例中,其中,所述触发一个拼音转移图包括:基于预设的触发概率,通过均匀分布生成一个随机数,根据所述随机数触发一个拼音转移图。
[0009]在一个可能的实施例中,其中,所述拼音转移图包括:拼音前缀树转移图,由具有公共前缀的拼音节点组成,以最长拼音前缀为树冠,以
最短拼音前缀为树根,以各个节点间的拼音的编辑距离作为节点的边权重,位于树冠的拼音节点指向位于树根的拼音节点;拼音模糊音转移图,由边权重为1的拼音节点组成,拼音节点之间无指向性;拼音键盘转移图,由分别在九宫格键盘坐标系和二十六键坐标系下,计算得到的拼音节点之间的earth

mover距离的加权和的倒数为边权重的拼音节点组成,拼音节点之间无指向性。
[0010]在一个可能的实施例中,其中,所述字权重由语料库中每个字符的出现频率的平方根进行归一化后得到;所述出错权重是每个位置的字符的出错概率与字权重的乘积,其中出错概率是指用户拼写错误的发生位置的概率。
[0011]在一个可能的实施例中,其中,所述错误模型包括:如果转移后的拼音节点没有对应的汉字,则直接将字符转换为拼音;如果转移后的拼音节点有对应的汉字,根据所述字权重,将字符转换为汉字。
[0012]在一个可能的实施例中,其中,所述分类模型将所述平行语料依然为错误语料的可信度大于或等于阈值的平行语料纳入纠错语料,弃用所述可信度小于阈值平行语料。
[0013]在一个可能的实施例中,其中,所述分类模型是基于GBDT的二分类机器学习模型,利用特征参数pv、ctr训练得到的,pv是语料的曝光量,ctr是点击语料的次数占总的展示次数的百分比。
[0014]根据本公开的第二方面,提供了一种自动生成纠错语料的系统,包括:语料获取单元,用于获取正确的语料,触发一个拼音转移图;改错点单元,用于根据所述语料的字权重和出错权重,得到改错点;映射单元,用于将所述改错点的字符映射为所述拼音转移图的对应节点,以所述对应节点为起点,根据所述拼音转移图的边权重进行转移,得到转移后的拼音节点;平行语料单元,用于根据所述转移后的拼音节点和错误模型,将所述转移后的拼音节点转换为对应的平行语料;可信度单元,用于将所述平行语料通过分类模型,得到所述平行语料的可信度,根据所述可信度,判断是否采纳所述平行语料作为所述纠错语料。
[0015]根据本公开的第三方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
[0016]根据本公开的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面所述的方法。
附图说明
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
[0018]图1示出了根据本公开实施例的典型的搜索引擎自动纠错场景的示意图。
[0019]图2示出了根据本公开实施例的典型的自动生成纠错语料的方法的示意图。
[0020]图3示出了根据本公开实施例的典型的拼音前缀树转移图的示意图。
[0021]图4示出了根据本公开实施例的典型的拼音模糊音转移图的示意图。
[0022]图5示出了根据本公开实施例的典型的拼音键盘转移图的示意图。
[0023]图6示出了根据本公开实施例的典型的自动生成纠错语料的系统的示意图。
[0024]图7示出了用于实现本公开实施例的电子设备的结构示意图。
具体实施方式
[0025]以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0026]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0027]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0028]目前,在终端设备上输入汉字的输入法以拼音方式为主,由于诸多客观原因,输入时出错率较高。在某些业务场景中,例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动生成纠错语料的方法,包括:获取正确的语料,触发一个拼音转移图;根据所述语料的字权重和出错权重,得到改错点;将所述改错点的字符映射为所述拼音转移图的对应节点,以所述对应节点为起点,根据所述拼音转移图的边权重进行转移,得到转移后的拼音节点;根据所述转移后的拼音节点和错误模型,将所述转移后的拼音节点转换为对应的平行语料;将所述平行语料通过分类模型,得到所述平行语料的可信度,根据所述可信度,判断是否采纳所述平行语料作为所述纠错语料。2.如权利要求1所述的方法,其中,所述触发一个拼音转移图包括:基于预设的触发概率,通过均匀分布生成一个随机数,根据所述随机数触发一个拼音转移图。3.如权利要求2所述的方法,其中,所述拼音转移图包括:拼音前缀树转移图,由具有公共前缀的拼音节点组成,以最长拼音前缀为树冠,以最短拼音前缀为树根,以各个节点间的拼音的编辑距离作为节点的边权重,位于树冠的拼音节点指向位于树根的拼音节点;拼音模糊音转移图,由边权重为1的拼音节点组成,拼音节点之间无指向性;拼音键盘转移图,由分别在九宫格键盘坐标系和二十六键坐标系下,计算得到的拼音节点之间的earth

mover距离的加权和的倒数为边权重的拼音节点组成,拼音节点之间无指向性。4.如权利要求1

3中任一项所述的方法,其中,所述字权重由语料库中每个字符的出现频率的平方根进行归一化后得到;所述出错权重是每个位置的字符的出错概率与字权重的乘积,其中出错概率是指用户拼写错误的发生位置的概率。5.如权利要求1

3...

【专利技术属性】
技术研发人员:章立方宽王瑞欣周日康
申请(专利权)人:智者四海北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1