一种文本错别字自动更正方法和服务器技术

技术编号：15541876 阅读：241 留言：0更新日期：2017-06-05 11:04

本发明专利技术提供了一种文本错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练纠正模型，学习错别字的特征。本发明专利技术采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正，它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字，大大提高了错别字的纠正效率。

A text typos automatic correction method and server

The present invention provides an automatic text typos correction method and server can correct the text more efficient in typos, learning model and high dimension to quantify by depth, each word is mapped to a high space, and through the high dimensional vector to represent the relationship between words, then use context information word and its role in the sentence to identify whether it is typos. This method does not need to spend a lot of cost to build the corresponding relationship between the correct words and typos, but merely to construct a suitable training model of correcting typos, feature learning typos. The technical scheme of the invention considers context information sentence semantics and syntax, POS and word to sentence the typos are identified and corrected, it can not only identify typos homonym and form words, but also can identify and correct other types of typos, greatly improving the typos the correction efficiency.

全部详细技术资料下载

【技术实现步骤摘要】
一种文本错别字自动更正方法和服务器
本专利技术涉及一种数据更正方法领域，更具体的，涉及一种文本错别字自动更正方法和服务器。
技术介绍
文本校对过程中主要技术就是纠正错别字。通常情况下，文本校对过程基本上采用２种方法（人工检查校对和基于错别字词典的校对），其中最主要的是错别字词典校对，通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此专利技术通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典，再利用评分模型对相应的词进行打分，最后根据打分从词典中选取正确的字。从错别字的本意上来看，错别字之所以错是因为错别字出现的位置使得句子语义错误、句子的语法以及词性发生变化。传统的错别字纠正方法都是以词作为分析单元，这在某些情况下是可行的，如：“百度”和“百渡”；但在某些基于语义下是不行的，如：“我是各国人”和“我是中国人”。因此，传统的错别字纠正方法有如下不足：１．建立错别词和正确词配对词典成本非常高。２．当出现了词典以外的错别字时，系统将无法识别和纠正，这使得系统性能比较局限。３．系统没有考虑词的词性，词的上下文信息，句法和语义，因此会出现纠正后的词不符合语法和语义，或者有不符合语义与句法的词无法被识别。对于一些同音词，如“百度”和“摆渡”，当出现这样的错别词语时，系统是无法识别和纠正的。４．当一些句子出现长短错误，系统是无法进行纠正的。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术的目的在于，提供一种文本错别字自动更正方法和服务器...

【技术保护点】
一种文本错别字自动更正方法，其特征在于，包括：步骤1，对需要校对的文本进行预处理；步骤2，将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量；步骤3，采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果；步骤4，针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较；步骤5，将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择。

【技术特征摘要】
1.一种文本错别字自动更正方法，其特征在于，包括：步骤1，对需要校对的文本进行预处理；步骤2，将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量；步骤3，采用attention机制和双向LSTM（longshorttermmemory，长短时记忆网络）模型对句子进行识别，并输出其识别结果；步骤4，针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较；步骤5，将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择。2.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，所述步骤5还包括：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。3.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。4.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。5.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。6.根据权利要求5所述...

【专利技术属性】
技术研发人员：黄威威，潘嵘，张晋斌，
申请(专利权)人：深圳爱拼信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人