一种文字错误获取及校对方法、装置及存储介质制造方法及图纸

技术编号:27372445 阅读:17 留言:0更新日期:2021-02-19 13:58
一种文字错误获取及校对方法,包括以下步骤:S1:利用文字数据进行语言学习,对词语进行向量化表示,获得向量序列;S2:利用步骤S1中获取的向量序列,训练RNN循环神经网络,构建二进制模型;S3:利用二进制模型,进行未知文字的错误识别,获取错误文字的位置;S4:通过错误文字的位置,获取正确词语作为错误的提醒;S5:获取不包含错误位置的新序列,将正确的词语填充至新序列,并返回结果。本发明专利技术使用循环神经网络的方法进行汉语文字错误查找,放弃模式匹配方式,能够提升文字中错误的识别率并给出准确的提示。提示。提示。

【技术实现步骤摘要】
一种文字错误获取及校对方法、装置及存储介质


[0001]本专利技术属于文本校对领域,具体涉及一种文字错误获取及校对方法、装置及存储介质。

技术介绍

[0002]文字校对作为研究自然语言处理(Natural Language Processing, NLP)的一个方向,伴随着NLP技术突破而进步。在外文领域,2009年Grammarly公司推出了一款利用人工智能检查外文语法的软件,该软件已拓展出:词汇应用、标点符号、语法纠正、句式结构、写作风格等多个领域,同时支持用户个性化配置。汉语世界中,目前主流做法是利用大量语法规则、词汇开展了中文校对,在深度学习领域的探索和商用仍显不足,另外,在少数民族语言领域,计算机文字校对几乎处于空白状态,亟待解决。
[0003]现有技术的缺陷如下所示:1. 当前汉语文字纠错基本采用模式匹配的方式去做,模式生成困难,匹配过程繁琐;2. 错误的汉语文字模式由人工产出,跟随人工投入的增长,边际收益递减,不能满足现在汉语文字发展的态势、无法匹配新汉语文字词语的发展速度;3. 汉语文字模式需要多重判定正误,人工产出且包含错判的模式无法被修复,造成误导使用者的更严重后果;4.由于人工中产出者的水平不一致,纠错力度不一致,校对效果一般;在专利公开号为CN108197110A的专利中公开了一种名字和职务获取及校对的方法、装置及其存储介质,包括以下步骤:S1:获取文本文字中的人名以及人名所在的位置;S2:判断是否有遗漏的人名,若有遗漏的人名,则记录该遗漏的人名;S3:将步骤S1中获取的人名与步骤S2中获取的人名进行比较,判断是否有重复的人名,若重复则丢弃,否则记录;逐个比较后,得到最终人名名单;S4:对最终人名名单进行纠错处理;S5:对与人名相对应的职务进行纠错处理。应用以上方法,对文本中名字、职务的错误编辑进行纠错,提高文本中名字、职务的使用正确率,避免出现错误的情况出现;采用机器对文本进行校对和纠错,代替了人工检测,大大提高了文本核对的工作效率和工作准确率。
[0004]上述专利中的方法中的部分步骤均通过匹配的形式来完成,依旧存在这上述缺陷中的问题。

技术实现思路

[0005]为了解决上述问题,本专利技术提供了一种文字错误获取及校对方法、装置及存储介质,使用循环神经网络的方法进行汉语文字错误查找,放弃模式匹配方式,能够提升文字中错误的识别率并给出准确的提示。
[0006]一种文字错误获取及校对方法,包括以下步骤:S1:利用文字数据进行语言学习,对词语进行向量化表示,获得向量序列;S2:利用步骤S1中获取的向量序列,训练RNN循环神经网络,构建二进制模型;
S3:利用二进制模型,进行未知文字的错误识别,获取错误文字的位置;S4:通过错误文字的位置,获取正确词语作为错误的提醒;S5:获取不包含错误位置的新序列,将正确的词语填充至新序列,并返回结果。
[0007]优选的,所述步骤S1中获得向量序列的具体过程为:S1.1:切分文字数据,使之变为词语与词语的链接,得到序列s1;S1.2:统计词语的数量来构建word2vec模型;S1.3:构建停用词数据,获得序列s2;S1.4:针对序列s1和序列s2,使用tf-idf计算方法,得到词语tf-idf值序列,获取序列s3;S1.5:针对序列s1和序列s2,使用word2vec的计算方法,得到词语在空间向量中数值序列,得到序列s4。
[0008]优选的,所述步骤S2中获得二进制模型的具体过程为:S2.1:将正例、负例的标识标注至序列s3和序列s4,得到序列s3'和序列s4',所述负例具有错误位置属性;S2.2:在序列s3'和序列s4'上使用加权平均算法,得到新的序列s5;S2.3:计算序列s5,并通过正例的反馈,得到正常文本的阈值vt;S2.4:利用序列s5训练RNN神经网络;S2.5:导出RNN神经网络,获得二进制模型bm1。
[0009]优选的,所述步骤S3中获得错误文字的位置的具体过程为:S3.1:导入二进制模型bm1,加载在内存中;S3.2:输入一个新文本请求q1,对q1进行分词,得到q1的序列q1';S3.3:将序列q1'送入二进制模型bm1内进行计算,得到q1对应的值v1;S3.4:判断v1值是否大于阈值vt,是则进行标定位置,得到错误位置index1,返回序列c',否则直接返回c'。
[0010]优选的,所述步骤S4中获得正确词语的具体过程为:S4.1:观察序列c'内index1的值,得到index1在q1中的位置词语w1;S4.2:使用词语w1进行同音字、同形字混淆,得到序列w1';S4.3:将序列w1'中的每一值分别代入到序列q1中index1的位置进行替换,得到序列wp1';S4.4:以序列wp1'中的每一值分别执行步骤S3,得到对应的值序列wv1';S4.5:观察值序列wv1',找到具有c'标记或其v1值最小的元素,获取正确词语rw。
[0011]优选的,所述步骤S5中的具体过程为:S5.1:使用q1与index1,进行错误位置编辑,得到不包含index1位置的词序列ns;S5.2:使用正确词语rw填充词序列ns,得到序列ns';S5.3:返回序列ns'。
[0012]本专利技术还提供了一种文字错误获取及校对装置,包括设备端、网络端、服务器端、服务器集群;所述设备端通过有线或无线的方式连接至网络端,所述网络端通过路由集群连接至服务器端,所述服务器端通过集群调用的方式连接服务器集群。
[0013]优选的,所述服务器集群包括相连接的校对支撑集群和语言规则管理集群、相连
接的动态词典数据集群和知识管理集群、相连接的开发测试环境和词典管理集群,还包括语料采集集群、离线语言模型训练集群。
[0014]优选的,所述服务器端包括用户支撑数据服务器、Web访问服务器、权限管理服务器、应用管理服务器。
[0015]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述文字错误获取及校对方法的步骤。
[0016]本专利技术的技术效果为:本专利技术使用循环神经网络的方法进行汉语文字错误查找,放弃模式匹配方式;并采用机器学习代替人工,能够保证系统升级的效率与时效性;无人工判定,规避人工错判所带来的误差;由机器产出,纠错力度保持不变。
附图说明
[0017]图1为本专利技术提供的方法的总流程图。
[0018]图2为本专利技术中循环神经网络的定向循环结构。
[0019]图3为本专利技术提供的装置的业务流程图。
具体实施方式
[0020]下面将结合说明书附图对本专利技术的实施例进行详细说明。
[0021]本专利技术提供了一种文字错误获取及校对方法,如图1所示,实现步骤如下所示:S1:利用文字数据进行语言学习,对词语进行向量化表示,获得向量序列;S2:利用步骤S1中获取的向量序列,训练RNN循环神经网络,构建二进制模型;S3:利用二进制模型,进行未知文字的错误识别,获取错误文字的位置;S4:通过错误文字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字错误获取及校对方法,其特征在于,包括以下步骤:S1:利用文字数据进行语言学习,对词语进行向量化表示,获得向量序列;S2:利用步骤S1中获取的向量序列,训练RNN循环神经网络,构建二进制模型;S3:利用二进制模型,进行未知文字的错误识别,获取错误文字的位置;S4:通过错误文字的位置,获取正确词语作为错误的提醒;S5:获取不包含错误位置的新序列,将正确的词语填充至新序列,并返回结果。2.根据权利要求1所述的文字错误获取及校对方法,其特征在于,所述步骤S1中获得向量序列的具体过程为:S1.1:切分文字数据,使之变为词语与词语的链接,得到序列s1;S1.2:统计词语的数量来构建word2vec模型;S1.3:构建停用词数据,获得序列s2;S1.4:针对序列s1和序列s2,使用tf-idf计算方法,得到词语tf-idf值序列,获取序列s3;S1.5:针对序列s1和序列s2,使用word2vec的计算方法,得到词语在空间向量中数值序列,得到序列s4。3.根据权利要求2所述的文字错误获取及校对方法,其特征在于,所述步骤S2中获得二进制模型的具体过程为:S2.1:将正例、负例的标识标注至序列s3和序列s4,得到序列s3'和序列s4',所述负例具有错误位置属性;S2.2:在序列s3'和序列s4'上使用加权平均算法,得到新的序列s5;S2.3:计算序列s5,并通过正例的反馈,得到正常文本的阈值vt;S2.4:利用序列s5训练RNN神经网络;S2.5:导出RNN神经网络,获得二进制模型bm1。4.根据权利要求3所述的文字错误获取及校对方法,其特征在于,所述步骤S3中获得错误文字的位置的具体过程为:S3.1:导入二进制模型bm1,加载在内存中;S3.2:输入一个新文本请求q1,对q1进行分词,得到q1的序列q1';S3.3:将序列q1'送入二进制模型bm1内进行计算,得到q1对应的值v1;S3.4:判断v1值是否大于...

【专利技术属性】
技术研发人员:唐非朱柯逸
申请(专利权)人:浙江一意智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1