一种基于文本化词向量的中文语法错误检测方法技术

技术编号:19691969 阅读:38 留言:0更新日期:2018-12-08 11:13
本发明专利技术公开了一种中文语法错误检测方法及装置,属于信息处理领域。该方法的特征包括:先对输入的文本词语向量化,连接形成文本矩阵;再利用循环神经网络形成关于词向量中各分量重要程度的掩码;重建文本矩阵;利用循环神经网络提取上下文信息;利用前向神经网络计算各个词语错误性得分;使用错误性得分推断错误位置。本发明专利技术通过结合基于文本化词向量,使得中文语法检测效果得到提升,具有很大的使用价值。

【技术实现步骤摘要】
一种基于文本化词向量的中文语法错误检测方法
本专利技术涉及信息处理领域,特别涉及一种基于神经网络的中文语法错误检测方法。
技术介绍
中文语法错误检测是中文自然语言处理中的比较新的任务,目的是判断非中文母语的人所写的语句是否有错,并且给出错误信息。目前最普遍的中文语法错误检测方法是把错误检测任务作为一个有监督的序列标注任务来完成。比较常见的语法错误检测有N-Gram、循环神经网络等。但是这些网络都十分依赖人工设计的特征,需要比较多的人工特征的加入。最近,由于神经网络可以自己学习文本的特征以代替复杂的人工特征,所以很多工作都在尝试将神经网络应用于中文语法错误检测。但是大部分的工作没有很好的利用中文词汇所表达的信息,忽略了同一词语在不同文本下意义可能会有所不同。而本专利技术为了解决上述的问题,采用了循环神经网络得到词向量中各分量重要程度的掩码,再利用循环神经网络,得到了较好的错误检测效果。
技术实现思路
为了解决现有的技术问题,本专利技术提供了一种基于神经网络的中文语法错误检测方法。方案如下:步骤一,我们将输入文本的每个词语都映射为词向量,将文本参数化,将输入的文本映射为一个文本矩阵。步骤二,我们使用一个循环神经网络对文本矩阵进行处理,得到关于词向量分量在文本中重要程度的掩码。步骤三,对文本矩阵使用词向量分量在文本中重要程度的掩码进行处理,得到重建的词向量表示的文本矩阵。步骤四,我们将重建的词向量表示的文本矩阵进行输入循环神经网络进行处理,得到文本中各个词向量的特征表示。步骤五,我们对文本中各个词向量的特征表示进行处理,特征表示经过一个前向神经网络得到各个词语的错误性得分;步骤六,在整个文本层面对各个词语的错误性得分进行推断,得到错误词语信息。附图说明图1是本专利技术提供的中文语法错误检测的网络结构图图2为长短期记忆网络单元的内部结构图具体实施方式接下来将对本专利技术的实施方案作更详细的描述。图一是本专利技术提供的错误检测方法的网络结构图,其中包括:步骤S1:输入的文本词语向量化;步骤S2:循环神经网络形成关于词向量中各分量重要程度的掩码;步骤S3:文本矩阵重建;步骤S4:循环神经网络提取上下文信息;步骤S5:前向神经网络计算各个词语错误性得分;步骤S6:使用错误性得分推断错误位置;下面将对每个步骤进行具体的说明:步骤S1:文本词语向量化。本专利技术首先建立词语到词向量编号的映射字典,将文本中各个词语映射为相应的词语编号。建立词向量矩阵,每一行行号对应相应的词语编号,每一行代表一个词向量。通过词向量矩阵将词语编号映射为相应的词向量。连接文本中各词的词向量形成文本矩阵。假设中文词语共有N个,那么词向量矩阵可以表示为一个N*d的矩阵,其中d表示词向量的维度。整个输入文本的词语经过向量化后,文本矩阵可以表示为x。其中,xi表示文本中第i个单词的词向量,n表示文本长度即文本中词语个数,表示向量的列连接。步骤S2:循环神经网络形成关于词向量中各分量重要程度的掩码。循环神经网络可以更好的提取文本的上下文信息,并且在文本处理领域中广泛应用,如:中文分词,文本分类。相比于基于统计学习的N-Gram的方法,循环神经网络可以关注到更长时间的依赖关系,更好的捕捉文章的整体信息。传统的循环神经网络会出现梯度消失及梯度爆炸的问题,而长短期记忆网络(LSTM)可以很好的解决这个问题。长短期记忆网络中利用输入门,忘记门,输出门可以更有效的控制学习到长距离的依赖关系。当前的中文语法错误检测的方法中没有充分考虑到词向量对词语意义的表示的局限性。同一个词语在不同的文本中可能会有不同的意义。因此本文中利用循环神经网络形成关于词向量中各分量重要程度的掩码,利用掩码重建词向量。图2给出了一种长短期记忆网络的单元结构,时刻t时可以描述为:it=σ(Wi·xt+Ui·ht-1+bi)ft=σ(Wf·xt+Uf·ht-1+bf)ot=σ(Wo·xt+Uo·ht-1+bo)ht=ot⊙tanh(Ct)其中x是输入的向量,C是记忆单元,i是输入门,f是忘记门,o是输出门。σ是sigmoid激活函数。⊙是数值对位相乘,·是矩阵相乘。W和U分别是输入和隐藏层的权重矩阵,b是偏置。是记忆单元的候选值,由当前的输入与之前的隐藏层状态共同决定。Ct通过输入门和忘记门分别作用于记忆单元候选值和前一时刻记忆单元的值共同作用。词向量中各分量重要程度的掩码由长短期记忆网络输出的最后一层决定,包含了整篇文章从前到后的所有信息。掩码的计算可以描述为:mask=hn其中mask表示词向量中各分量重要程度的掩码。步骤S3:文本矩阵重建。在步骤1中我们得到了词向量连接而成的文本矩阵,在步骤2中我们得到了词向量分量在文本中重要程度的掩码。我们认为词向量中各个分量表示了词语意义的不同信息。对于不同的文本,同一词汇的意义可能会有很大的区别。我们利用掩码与词向量的点乘重构词向量。掩码表示了在该文本下,词语的意义更偏向哪一方面,将适用于当前文本的那一方面进行放大,对不是文本中表示的意义的那一方面减少。重构后的词向量重新连接,构成重建的词向量表示的文本矩阵。步骤S4:循环神经网络提取上下文信息。在步骤3中我们得到了重建的词向量表示的文本矩阵,我们利用循环神经网络对重建的文本矩阵进行处理,得到文本中各个词向量的特征表示。单向的长短期记忆网络虽然也能很好的提取网络信息但是不能提取反向的信息。我们使用双向的长短期记忆网络随文本的上下文信息进行抽取。双向长短期记忆网络有两个方向的记忆单元,分别抽取正向及反向的文本信息。我们将正向及反向单元输出的向量进行拼接,作为文本中各个词向量的特征表示。其中表示正向的长短期记忆网络在t时刻的输出,表示反向的长短期记忆网络在t时刻的输出。向量与向量直接进行拼接,作为t时刻的词向量的特征表示。步骤S5:前向神经网络计算各个词语错误性得分。在步骤4中我们得到了通过循环神经网络处理后的文本中各个词向量的特征表示。我们利用词向量的特征表示计算词语的错误性得分。score=ht·W其中W为计算分数的权重。计算文本中所有词语的得分,可以得到在文本层面上所有的词语的错误性得分。步骤S6:使用错误性得分推断错误位置。以正确和错误双标签为例,将正确标为0,错误标为1。对于错误得分,错误性得分有越大的,越有可能有错误。通过分数判断文本中的错误位置,给出错误信息。以上结合附图对所提出的一种基于文本化词向量的中文语法错误检测方法及各模块的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本专利技术可借助软件加必需的通用硬件平台的方式来实现。依据本专利技术的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本专利技术的限制。以上所述的本专利技术实施方式,并不构成对专利技术保护范围的限定。任何在本专利技术的精神和原则之内所作的修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于文本化词向量的中文语法错误检测方法,其特征在于,所述方法包含以下结构和步骤:(1)输入的文本词语向量化:对输入文本的词语进行映射,将词语转换为相应的词向量,输入的已分词的文本即数值化为各个词语的词向量连接而成的文本矩阵;(2)循环神经网络形成关于词向量中各分量重要程度的掩码:对步骤(1)得到的文本矩阵进行处理,循环神经网络将上下文信息进行处理,得到关于词向量分量在文本中重要程度的掩码;(3)文本矩阵重建:对步骤(1)中词语转换为相应的词向量使用步骤(2)得到的关于词向量分量在文本中重要程度的掩码进行处理,得到重建的词向量表示的文本矩阵;(4)循环神经网络提取上下文信息:对步骤(3)得到的重建词向量表示的文本矩阵进行处理,循环神经网络提取上下文信息,得到文本中各个词向量的特征表示;(5)前向神经网络计算各个词语错误性得分:对步骤(4)中得到的文本中各个词向量的特征表示进行处理,特征表示经过一个前向神经网络得到文本中各个词语的错误性得分;(6)使用错误性得分推断错误位置:对步骤(5)得到的错误性得分进行处理,在整个文本层面对各个词语的错误性得分进行推断,得到错误词语信息。

【技术特征摘要】
1.一种基于文本化词向量的中文语法错误检测方法,其特征在于,所述方法包含以下结构和步骤:(1)输入的文本词语向量化:对输入文本的词语进行映射,将词语转换为相应的词向量,输入的已分词的文本即数值化为各个词语的词向量连接而成的文本矩阵;(2)循环神经网络形成关于词向量中各分量重要程度的掩码:对步骤(1)得到的文本矩阵进行处理,循环神经网络将上下文信息进行处理,得到关于词向量分量在文本中重要程度的掩码;(3)文本矩阵重建:对步骤(1)中词语转换为相应的词向量使用步骤(2)得到的关于词向量分量在文本中重要程度的掩码进行处理,得到重建的词向量表示的文本矩阵;(4)循环神经网络提取上下文信息:对步骤(3)得到的重建词向量表示的文本矩阵进行处理,循环神经网络提取上下文信息,得到文本中各个词向量的特征表示;(5)前向神经网络计算各个词语错误性得分:对步骤(4)中得到的文本中各个词向量的特征表示进行处理,特征表示经过一个前向神经网络得到文本中各个词语的错误性得分;(6)使用错误性得分推断错误位置:对步骤(5)得到的错误性得分进行处理,在整个文本层面对各个词语的错误性得分进行推断,得到错误词语信息。2.如权利要求1所述的方法,其特征在于,所述步骤(1)具体包括:(1.1)初始化词语到词向量编号的映射索引及词向量矩阵;(1.2)通过映射索引将词语映射为对应的词语编号;(1.3)通过各个词语的词语编号取得词向量矩阵中对应的词向量;(1.4)将词向量连接,得到各个词语的词向量连接而成的文本矩阵。3.如权利要求1所述的方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:李思赵建博李明正徐雅静
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1