一种拼写数据的生成方法技术

技术编号:27260234 阅读:17 留言:0更新日期:2021-02-06 11:17
本发明专利技术公开了一种拼写数据的生成方法,包括以下步骤:基于输入法构建拼音语料库、语音语料库以及手写语料库;通过输入法输入不同形式的错误句子或词组;通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。本发明专利技术用于中文拼写检查的标记语料库的获取变得更加简单可行,克服了以往通过人工收集费事费力且难以大量获取的弊端,使用不同的方法为不同的输入法构建对应的标记语料库,可以获得更加接近真实情况的语料数据。料数据。料数据。

【技术实现步骤摘要】
一种拼写数据的生成方法


[0001]本专利技术涉及语料检查
,尤其涉及一种拼写数据的生成方法。

技术介绍

[0002]随着互联网技术的快速发展,每时每刻都会有大量的中文文本信息产生,越来越多的行业开始或者已经将本部的工作职能与互联网关联,人们已经习惯了从网络中获取需要的知识和概念。然而网络上的文本信息都是通过输入法进行输入的,常见的输入方式包括键盘录入、OCR识别、语音识别等。然而这些录入方式都不能保证所输入的信息准确无误,这些中文文本或多或少地存在着拼写错误。国家广电总局重视图书编校质量,曾多次对图书进行抽查。以合格率衡量图书质量,2012年为88.4%,2013年为86.8%,2014为82.5%。
[0003]除了普通刊物出现拼写错误影响阅读以外,在某些重要领域,比如政治文件、权威发言、重要新闻等,拼写错误还会造成及其严重的影响,甚至影响国家的稳定。此类错误一旦发生,将对国家和社会带来严重影响。因此中文文本的拼写检查越来越受到相关行业的重视。
[0004]当前越来越多的人采用数据驱动的方法,来完成中文文本自动拼写检查任务。但是使用这类方法的前提是拥有大量用于拼写检查任务的标记语料库。这里的标记是指为错误句子中的每个字符打上相应的标签。当前人们在获得语料库的时,多数采用人工收集真实的错误句子的方法,但其只包含700条数据;国际计算机语言学会中文语言处理小组(SIGHAN)分别于2013年、2014年和2015年公布了用于拼写检查的标准数据集,这三年公布的数据分别包含1290、5734和3632处拼写错误,共计10656处,这对于需要大量数据用于训练的有监督模型,显得有些捉襟见肘。并且显然通过收集真实数据用以构建语料库的方法费事费力,且错误句子难以大量获取,因此如何自动构建拼写检查语料库引起了业内人士的关注。

技术实现思路

[0005]为克服相关技术中存在的问题,本专利技术实施例提供一种拼写数据的生成方法,克服了以往通过人工收集费事费力且难以大量获取的弊端。
[0006]本专利技术实施例提供一种拼写数据的生成方法,包括以下步骤:
[0007]基于输入法构建拼音语料库、语音语料库以及手写语料库;
[0008]通过输入法输入不同形式的错误句子或词组;
[0009]通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;
[0010]当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。
[0011]进一步地,所述构建拼音语料库包括以下步骤;
[0012]将生成的正确句子进行分词处理,随机选择一个汉字词;
[0013]将选择的汉字词转化为拼音,将拼音转化为对应的词语;
[0014]在转换出来的词语中选择一个和原词不同的词,代替原来的词进而生成误用拼音相同的词的句子。
[0015]进一步地,所述将拼音转化为对应的词语中,每个词语都有对应的得分,分数基于隐马尔科夫模型进行设定,越常用的词得分越高。
[0016]进一步地,所述在选择生成的词代替原来的词时,通过对应的预设替换概率进行替换,与原词相同的词的替换概率为零,将剩余的词语按照降序排序,第i个词的得分设为Socre(i),对应的替换概率设为RP(i),替换公式如下:RP(i)代表第i个词的替换概率,Socre(i)代表第i个词的得分,n代表和原词不同的词的数量。
[0017]进一步地,所述在将汉字转化为拼音时,使用pypinyin进行转换;在将拼音转化为汉字时,使用Pinyin2Hanzi进行转换。
[0018]进一步地,所述构建语音语料库包括以下步骤;
[0019]通过语音自动识别技术将生成的错误句子分为两类,第一类为与原句长度相同,第二类为与原来的句子长度不同;
[0020]当生成与原来句子长度相同的错误句子时,对相应的字符进行标签标记处理。
[0021]进一步地,所述对相应的字符进行标签标记处理时,采用字字对应的方法进行处理,将正确的字标签为C,错误的字标签为W。
[0022]进一步地,所述生成的错误句子采用Kaldi工具进行生成,将SL表示和原来句子相同长度的错误句子,将DL表示和原来句子不同长度的错误句子。
[0023]进一步地,所述构建手写语料库包括以下步骤:
[0024]将输入的文本转化为图片格式;
[0025]对图片进行部分模糊化处理;
[0026]使用OCR工具对图片进行识别,当识别与原来的汉字不同时,将生成的字符代替原来的字符,生成误用视觉相似字符的句子。
[0027]本专利技术的实施例提供的技术方案具有以下有益效果:用于中文拼写检查的标记语料库的获取变得更加简单可行,克服了以往通过人工收集费事费力且难以大量获取的弊端,使用不同的方法为不同的输入法构建对应的标记语料库,可以获得更加接近真实情况的语料数据。
[0028]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0029]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0030]图1是本专利技术实施例一中拼写数据的生成方法的流程图。
[0031]图2是本专利技术实施例一中拼写数据的生成方法的定量比较图。
[0032]图3是本专利技术实施例二中拼写数据的生成方法的流程图。
[0033]图4是本专利技术实施例三中拼写数据的生成方法的流程图。
具体实施方式
[0034]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置及相关应用、方法的例子。
[0035]实施例一
[0036]图1是本专利技术实施例中拼写数据的生成方法的流程图,如图1所示,该拼写数据的生成方法,包括以下步骤:
[0037]步骤101、基于输入法构建拼音语料库、语音语料库以及手写语料库。
[0038]通过输入法输入不同形式的错误句子或词组。
[0039]通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索。
[0040]当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。
[0041]构建拼音语料库包括以下步骤;
[0042]将生成的正确句子进行分词处理,随机选择一个汉字词;之所以词为单位生成错误,是因为在使用拼音输入法进行输入时,是以词为单位进行输入(火势\逐渐\向\四周\蔓延),而不是以单个的字为单位进行输入(火\势\逐\渐\向\四\周\蔓\延)。
[0043]将选择的汉字词转化为拼音,将拼音转化为对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拼写数据的生成方法,其特征在于,包括以下步骤:基于输入法构建拼音语料库、语音语料库以及手写语料库;通过输入法输入不同形式的错误句子或词组;通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。2.根据权利要求1所述的拼写数据的生成方法,其特征在于,所述构建拼音语料库包括以下步骤;将生成的正确句子进行分词处理,随机选择一个汉字词;将选择的汉字词转化为拼音,将拼音转化为对应的词语;在转换出来的词语中选择一个和原词不同的词,代替原来的词进而生成误用拼音相同的词的句子。3.根据权利要求2所述的拼写数据的生成方法,其特征在于,所述将拼音转化为对应的词语中,每个词语都有对应的得分,分数基于隐马尔科夫模型进行设定,越常用的词得分越高。4.根据权利要求2所述的拼写数据的生成方法,其特征在于,所述在选择生成的词代替原来的词时,通过对应的预设替换概率进行替换,与原词相同的词的替换概率为零,将剩余的词语按照降序排序,第i个词的得分设为Socre(i),对应的替换概率设为RP(i),替换公式如下:如下:RP(i)代表第i个词的替换概率,Socre(i)代表第i个词的得分...

【专利技术属性】
技术研发人员:段建勇王昊张梅马东超潘利建王冰袁阳
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1