一种拼写数据的生成方法技术

技术编号：27260234 阅读：17 留言：0更新日期：2021-02-06 11:17

本发明专利技术公开了一种拼写数据的生成方法，包括以下步骤：基于输入法构建拼音语料库、语音语料库以及手写语料库；通过输入法输入不同形式的错误句子或词组；通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索；当检索出对应的错误时，通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。本发明专利技术用于中文拼写检查的标记语料库的获取变得更加简单可行，克服了以往通过人工收集费事费力且难以大量获取的弊端，使用不同的方法为不同的输入法构建对应的标记语料库，可以获得更加接近真实情况的语料数据。料数据。料数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种拼写数据的生成方法

[0001]本专利技术涉及语料检查
，尤其涉及一种拼写数据的生成方法。

技术介绍

[0002]随着互联网技术的快速发展，每时每刻都会有大量的中文文本信息产生，越来越多的行业开始或者已经将本部的工作职能与互联网关联，人们已经习惯了从网络中获取需要的知识和概念。然而网络上的文本信息都是通过输入法进行输入的，常见的输入方式包括键盘录入、OCR识别、语音识别等。然而这些录入方式都不能保证所输入的信息准确无误，这些中文文本或多或少地存在着拼写错误。国家广电总局重视图书编校质量，曾多次对图书进行抽查。以合格率衡量图书质量，2012年为88.4％，2013年为86.8％，2014为82.5％。
[0003]除了普通刊物出现拼写错误影响阅读以外，在某些重要领域，比如政治文件、权威发言、重要新闻等，拼写错误还会造成及其严重的影响，甚至影响国家的稳定。此类错误一旦发生，将对国家和社会带来严重影响。因此中文文本的拼写检查越来越受到相关行业的重视。
[0004]当前越来越多的人采用数据驱动的方法，来完成中文文本自动拼写检查任务。但是使用这类方法的前提是拥有大量用于拼写检查任务的标记语料库。这里的标记是指为错误句子中的每个字符打上相应的标签。当前人们在获得语料库的时，多数采用人工收集真实的错误句子的方法，但其只包含700条数据；国际计算机语言学会中文语言处理小组(SIGHAN)分别于2013年、2014年和2015年公布了用于拼写检查的标准数据集，这三年公布的数据分别包含1290、5734和363...

【技术保护点】

【技术特征摘要】
1.一种拼写数据的生成方法，其特征在于，包括以下步骤：基于输入法构建拼音语料库、语音语料库以及手写语料库；通过输入法输入不同形式的错误句子或词组；通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索；当检索出对应的错误时，通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。2.根据权利要求1所述的拼写数据的生成方法，其特征在于，所述构建拼音语料库包括以下步骤；将生成的正确句子进行分词处理，随机选择一个汉字词；将选择的汉字词转化为拼音，将拼音转化为对应的词语；在转换出来的词语中选择一个和原词不同的词，代替原来的词进而生成误用拼音相同的词的句子。3.根据权利要求2所述的拼写数据的生成方法，其特征在于，所述将拼音转化为对应的词语中，每个词语都有对应的得分，分数基于隐马尔科夫模型进行设定，越常用的词得分越高。4.根据权利要求2所述的拼写数据的生成方法，其特征在于，所述在选择生成的词代替原来的词时，通过对应的预设替换概率进行替换，与原词相同的词的替换概率为零，将剩余的词语按照降序排序，第i个词的得分设为Socre(i)，对应的替换概率设为RP(i)，替换公式如下：如下：RP(i)代表第i个词的替换概率，Socre(i)代表第i个词的得分...

【专利技术属性】
技术研发人员：段建勇，王昊，张梅，马东超，潘利建，王冰，袁阳，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人