一种文字错误获取及校对方法、装置及存储介质制造方法及图纸

技术编号：27372445 阅读：17 留言：0更新日期：2021-02-19 13:58

一种文字错误获取及校对方法，包括以下步骤：S1：利用文字数据进行语言学习，对词语进行向量化表示，获得向量序列；S2：利用步骤S1中获取的向量序列，训练RNN循环神经网络，构建二进制模型；S3：利用二进制模型，进行未知文字的错误识别，获取错误文字的位置；S4：通过错误文字的位置，获取正确词语作为错误的提醒；S5：获取不包含错误位置的新序列，将正确的词语填充至新序列，并返回结果。本发明专利技术使用循环神经网络的方法进行汉语文字错误查找，放弃模式匹配方式，能够提升文字中错误的识别率并给出准确的提示。提示。提示。

全部详细技术资料下载

【技术实现步骤摘要】
一种文字错误获取及校对方法、装置及存储介质

[0001]本专利技术属于文本校对领域，具体涉及一种文字错误获取及校对方法、装置及存储介质。

技术介绍

[0002]文字校对作为研究自然语言处理（Natural Language Processing, NLP）的一个方向，伴随着NLP技术突破而进步。在外文领域，2009年Grammarly公司推出了一款利用人工智能检查外文语法的软件，该软件已拓展出：词汇应用、标点符号、语法纠正、句式结构、写作风格等多个领域，同时支持用户个性化配置。汉语世界中，目前主流做法是利用大量语法规则、词汇开展了中文校对，在深度学习领域的探索和商用仍显不足，另外，在少数民族语言领域，计算机文字校对几乎处于空白状态，亟待解决。
[0003]现有技术的缺陷如下所示：1. 当前汉语文字纠错基本采用模式匹配的方式去做，模式生成困难，匹配过程繁琐；2. 错误的汉语文字模式由人工产出，跟随人工投入的增长，边际收益递减，不能满足现在汉语文字发展的态势、无法匹配新汉语文字词语的发展速度；3. 汉语文字模式需要多重判定正误，人工产出且包含错判的模式无法被修复，造成误导使用者的更严重后果；4．由于人工中产出者的水平不一致，纠错力度不一致，校对效果一般；在专利公开号为CN108197110A的专利中公开了一种名字和职务获取及校对的方法、装置及其存储介质，包括以下步骤：S1：获取文本文字中的人名以及人名所在的位置；S2：判断是否有遗漏的人名，若有遗漏的人名，则记录该遗漏的人名；S3：将步骤S1中获取的人名与步骤S2...

【技术保护点】

【技术特征摘要】
1.一种文字错误获取及校对方法，其特征在于，包括以下步骤：S1：利用文字数据进行语言学习，对词语进行向量化表示，获得向量序列；S2：利用步骤S1中获取的向量序列，训练RNN循环神经网络，构建二进制模型；S3：利用二进制模型，进行未知文字的错误识别，获取错误文字的位置；S4：通过错误文字的位置，获取正确词语作为错误的提醒；S5：获取不包含错误位置的新序列，将正确的词语填充至新序列，并返回结果。2.根据权利要求1所述的文字错误获取及校对方法，其特征在于，所述步骤S1中获得向量序列的具体过程为：S1.1：切分文字数据，使之变为词语与词语的链接，得到序列s1；S1.2：统计词语的数量来构建word2vec模型；S1.3：构建停用词数据，获得序列s2；S1.4：针对序列s1和序列s2，使用tf-idf计算方法，得到词语tf-idf值序列，获取序列s3；S1.5：针对序列s1和序列s2，使用word2vec的计算方法，得到词语在空间向量中数值序列，得到序列s4。3.根据权利要求2所述的文字错误获取及校对方法，其特征在于，所述步骤S2中获得二进制模型的具体过程为：S2.1：将正例、负例的标识标注至序列s3和序列s4，得到序列s3'和序列s4'，所述负例具有错误位置属性；S2.2：在序列s3'和序列s4'上使用加权平均算法，得到新的序列s5；S2.3：计算序列s5，并通过正例的反馈，得到正常文本的阈值vt；S2.4：利用序列s5训练RNN神经网络；S2.5：导出RNN神经网络，获得二进制模型bm1。4.根据权利要求3所述的文字错误获取及校对方法，其特征在于，所述步骤S3中获得错误文字的位置的具体过程为：S3.1：导入二进制模型bm1，加载在内存中；S3.2：输入一个新文本请求q1，对q1进行分词，得到q1的序列q1'；S3.3：将序列q1'送入二进制模型bm1内进行计算，得到q1对应的值v1；S3.4：判断v1值是否大于...

【专利技术属性】
技术研发人员：唐非，朱柯逸，
申请(专利权)人：浙江一意智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人