一种自动生成纠错语料的方法和系统技术方案

技术编号：27818345 阅读：19 留言：0更新日期：2021-03-30 10:24

本公开提供了一种自动生成纠错语料的方法和系统，所述方法包括：获取正确的语料，触发一个拼音转移图；根据所述语料的字权重和出错权重，得到改错点；将所述改错点的字符映射为所述拼音转移图的对应节点，以所述对应节点为起点，根据所述拼音转移图的边权重进行转移，得到转移后的拼音节点；根据所述转移后的拼音节点和错误模型，将所述转移后的拼音节点转换为对应的平行语料；将所述平行语料通过分类模型，得到所述平行语料的可信度，根据所述可信度，判断是否采纳所述平行语料作为所述纠错语料。料。料。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动生成纠错语料的方法和系统

[0001]本公开涉及信息
，特别涉及一种自动生成纠错语料的方法、系统、电子设备及计算机可读介质。

技术介绍

[0002]目前，在终端设备上输入汉字的输入法以拼音方式为主，由于诸多客观原因，输入时出错率较高。
[0003]在某些业务场景中，例如在搜索引擎中搜索关键词，自动纠错的功能就尤为重要。但是，在搜索引擎的自动纠错系统中，一个比较复杂的问题在于如何生产用来训练自动纠错模型的语料。生产的纠错语料越多，准确性越高，越有利于后续基于纠错语料进行模型训练和优化。
[0004]目前生产纠错语料的方法主要都是人工对齐或者是半自动对齐，这些对齐方法依赖于两次连续用户语料的对齐，需要大量的人力标注成本，并且严重依赖于用户历史行为，导致挖掘出的语料缺少对长尾样本的覆盖。
[0005]因此，急需一种自动生成纠错语料的方法，通过模拟用户拼音输入行为直接生成纠错语料，无需人工标注，用更低的成本生成更大规模的、更可信的和更符合用户习惯的拼写错误语料的纠错语料数据集。

技术实现思路

[0006]有鉴于此，本公开实施例的目的在于提供一种自动生成纠错语料的方法，通过模拟用户拼音输入行为直接生成纠错语料，无需人工标注，用更低的成本生成更大规模的、更可信的和更符合用户习惯的拼写错误语料的纠错语料数据集。
[0007]根据本公开的第一方面，提供了一种自动生成纠错语料的方法，包括：获取正确的语料，触发一个拼音转移图；根据所述语料的字权重和出错权重，得到改错点；将所述...

【技术保护点】

【技术特征摘要】
1.一种自动生成纠错语料的方法，包括：获取正确的语料，触发一个拼音转移图；根据所述语料的字权重和出错权重，得到改错点；将所述改错点的字符映射为所述拼音转移图的对应节点，以所述对应节点为起点，根据所述拼音转移图的边权重进行转移，得到转移后的拼音节点；根据所述转移后的拼音节点和错误模型，将所述转移后的拼音节点转换为对应的平行语料；将所述平行语料通过分类模型，得到所述平行语料的可信度，根据所述可信度，判断是否采纳所述平行语料作为所述纠错语料。2.如权利要求1所述的方法，其中，所述触发一个拼音转移图包括：基于预设的触发概率，通过均匀分布生成一个随机数，根据所述随机数触发一个拼音转移图。3.如权利要求2所述的方法，其中，所述拼音转移图包括：拼音前缀树转移图，由具有公共前缀的拼音节点组成，以最长拼音前缀为树冠，以最短拼音前缀为树根，以各个节点间的拼音的编辑距离作为节点的边权重，位于树冠的拼音节点指向位于树根的拼音节点；拼音模糊音转移图，由边权重为1的拼音节点组成，拼音节点之间无指向性；拼音键盘转移图，由分别在九宫格键盘坐标系和二十六键坐标系下，计算得到的拼音节点之间的earth
‑
mover距离的加权和的倒数为边权重的拼音节点组成，拼音节点之间无指向性。4.如权利要求1
‑
3中任一项所述的方法，其中，所述字权重由语料库中每个字符的出现频率的平方根进行归一化后得到；所述出错权重是每个位置的字符的出错概率与字权重的乘积，其中出错概率是指用户拼写错误的发生位置的概率。5.如权利要求1
‑
3...

【专利技术属性】
技术研发人员：章立，方宽，王瑞欣，周日康，
申请(专利权)人：智者四海北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人