一种基于文本化词向量的中文语法错误检测方法技术

技术编号：19691969 阅读：38 留言：0更新日期：2018-12-08 11:13

本发明专利技术公开了一种中文语法错误检测方法及装置，属于信息处理领域。该方法的特征包括：先对输入的文本词语向量化，连接形成文本矩阵；再利用循环神经网络形成关于词向量中各分量重要程度的掩码；重建文本矩阵；利用循环神经网络提取上下文信息；利用前向神经网络计算各个词语错误性得分；使用错误性得分推断错误位置。本发明专利技术通过结合基于文本化词向量，使得中文语法检测效果得到提升，具有很大的使用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本化词向量的中文语法错误检测方法
本专利技术涉及信息处理领域，特别涉及一种基于神经网络的中文语法错误检测方法。
技术介绍
中文语法错误检测是中文自然语言处理中的比较新的任务，目的是判断非中文母语的人所写的语句是否有错，并且给出错误信息。目前最普遍的中文语法错误检测方法是把错误检测任务作为一个有监督的序列标注任务来完成。比较常见的语法错误检测有N-Gram、循环神经网络等。但是这些网络都十分依赖人工设计的特征，需要比较多的人工特征的加入。最近，由于神经网络可以自己学习文本的特征以代替复杂的人工特征，所以很多工作都在尝试将神经网络应用于中文语法错误检测。但是大部分的工作没有很好的利用中文词汇所表达的信息，忽略了同一词语在不同文本下意义可能会有所不同。而本专利技术为了解决上述的问题，采用了循环神经网络得到词向量中各分量重要程度的掩码，再利用循环神经网络，得到了较好的错误检测效果。
技术实现思路
为了解决现有的技术问题，本专利技术提供了一种基于神经网络的中文语法错误检测方法。方案如下：步骤一，我们将输入文本的每个词语都映射为词向量，将文本参数化，将输入的文本映射为一个文本矩阵。步骤二，我们使用一个循环神经网络对文本矩阵进行处理，得到关于词向量分量在文本中重要程度的掩码。步骤三，对文本矩阵使用词向量分量在文本中重要程度的掩码进行处理，得到重建的词向量表示的文本矩阵。步骤四，我们将重建的词向量表示的文本矩阵进行输入循环神经网络进行处理，得到文本中各个词向量的特征表示。步骤五，我们对文本中各个词向量的特征表示进行处理，特征表示经过一个前向神经网络得到各个词语的错误...

【技术保护点】
1.一种基于文本化词向量的中文语法错误检测方法，其特征在于，所述方法包含以下结构和步骤：(1)输入的文本词语向量化：对输入文本的词语进行映射，将词语转换为相应的词向量，输入的已分词的文本即数值化为各个词语的词向量连接而成的文本矩阵；(2)循环神经网络形成关于词向量中各分量重要程度的掩码：对步骤(1)得到的文本矩阵进行处理，循环神经网络将上下文信息进行处理，得到关于词向量分量在文本中重要程度的掩码；(3)文本矩阵重建：对步骤(1)中词语转换为相应的词向量使用步骤(2)得到的关于词向量分量在文本中重要程度的掩码进行处理，得到重建的词向量表示的文本矩阵；(4)循环神经网络提取上下文信息：对步骤(3)得到的重建词向量表示的文本矩阵进行处理，循环神经网络提取上下文信息，得到文本中各个词向量的特征表示；(5)前向神经网络计算各个词语错误性得分：对步骤(4)中得到的文本中各个词向量的特征表示进行处理，特征表示经过一个前向神经网络得到文本中各个词语的错误性得分；(6)使用错误性得分推断错误位置：对步骤(5)得到的错误性得分进行处理，在整个文本层面对各个词语的错误性得分进行推断，得到错误词语信息。

【技术特征摘要】
1.一种基于文本化词向量的中文语法错误检测方法，其特征在于，所述方法包含以下结构和步骤：(1)输入的文本词语向量化：对输入文本的词语进行映射，将词语转换为相应的词向量，输入的已分词的文本即数值化为各个词语的词向量连接而成的文本矩阵；(2)循环神经网络形成关于词向量中各分量重要程度的掩码：对步骤(1)得到的文本矩阵进行处理，循环神经网络将上下文信息进行处理，得到关于词向量分量在文本中重要程度的掩码；(3)文本矩阵重建：对步骤(1)中词语转换为相应的词向量使用步骤(2)得到的关于词向量分量在文本中重要程度的掩码进行处理，得到重建的词向量表示的文本矩阵；(4)循环神经网络提取上下文信息：对步骤(3)得到的重建词向量表示的文本矩阵进行处理，循环神经网络提取上下文信息，得到文本中各个词向量的特征表示；(5)前向神经网络计算各个词语错误性得分：对步骤(4)中得到的文本中各个词向量的特征表示进行处理，特征表示经过一个前向神经网络得到文本中各个词语的错误性得分；(6)使用错误性得分推断错误位置：对步骤(5)得到的错误性得分进行处理，在整个文本层面对各个词语的错误性得分进行推断，得到错误词语信息。2.如权利要求1所述的方法，其特征在于，所述步骤(1)具体包括：(1.1)初始化词语到词向量编号的映射索引及词向量矩阵；(1.2)通过映射索引将词语映射为对应的词语编号；(1.3)通过各个词语的词语编号取得词向量矩阵中对应的词向量；(1.4)将词向量连接，得到各个词语的词向量连接而成的文本矩阵。3.如权利要求1所述的方法，其特征在于，所述步骤...

【专利技术属性】
技术研发人员：李思，赵建博，李明正，徐雅静，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人