当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于深度神经网络与多标记分类的病句检测方法技术

技术编号:12308462 阅读:72 留言:0更新日期:2015-11-11 17:34
本发明专利技术提供一种基于深度神经网络与多标记分类的病句检测方法,该方法的核心是先对句子进行词法分析、句法分析,在此基础上抽取基层特征,包括词特征,词关系特征等;然后,利用深度神经网络学习抽象的特征表示,以获得不同错误与特征之间的关系;最后,通过多标记分类方法推断句子中可能存在的语病。本发明专利技术针对句子识别其中语病,并且可以做到识别句子中的多种语病,避免了人工选择特征,同时也能提升多种语病的预测的准确度。

【技术实现步骤摘要】

本专利技术提出了,属于文本挖 掘和信息检索领域。
技术介绍
所谓语病识别,就是判断一个句子是否有语病,如果有,则找出语病。汉语有很多 种语病,包括词序不当、搭配不当、成分缺失、成分冗余、结构颠倒、语义不明、不合逻辑等。 其中,词序不当是指词语的顺序错误,例如中心词和修饰语之间以及多个修饰与之间顺序 的颠倒等。搭配不当包括主谓搭配不当、谓词和宾语搭配不当以及中心词和修饰语搭配不 当等。成分的缺失及冗余主要指主语、谓词等的空缺或多余。结构颠倒主要是句子结构的 混杂。不合逻辑错误是指自我矛盾、主宾颠倒等错误。 语病会导致句子的词性标注以及依存分析结果异常,使句子的正常分析变得更为 困难。现有语病识别工作大多仅针对某一类特定的错误进行识别。若识别句子中的所有类 型语病,则需要针对每一种错误训练一种对应的错误识别模型,这样做既繁琐又无法考虑 错误之间的关系。在遣词造句时,有时会出现含多类语病的句子,尤其是第二语言学习者。 例如一个句子可能既包含把字句错误,同时又缺失了主语。在第二外语学习者的作文中,有 相当比例的句子含有多种语病。语病识别是一个复杂的问题,受到很多因素的影响。为了 便于分类处理,需要预先定义很多特征。但是,究竟哪些特征真正有用,特别是,哪些特征组 合后能产生好的效果,一直是一个大的问题。当然,可以通过手工进行大量的尝试,但不仅 耗时而且费力。
技术实现思路
为了便于说明,先约定下列概念: 句子:这里指待判定是否为病句的句子,通常以句号结束。 语病:句子中包含不符合语法或者语义规范的描述。 本专利技术的目的是提供一种方法,在没有人工干预的情况下,容易检测出一个给定 的句子是否是病句(即包含至少一种语病)。 本专利技术的技术方案如下: -种基于深度神经网络与多标记分类的病句检测方法(参图1),其特征是,包括 如下步骤: 步骤一:对于一个输入的句子,表示为一个实例;然后根据词法、句法分析提取特 征,将实例转换为特征向量; 步骤二:将步骤一得到的特征向量作为深度神经网络的输入,通过深度神经网络 的计算,逐层获得压缩表示; 步骤三:将最后一层神经网络的压缩表示作为多标记分类层的输入,计算得到最 终确定的语病类型。 步骤一进一步包括:对实例进行预处理,包括汉语词切分和词性标注以及依存分 析。 步骤三进一步包括:计算获得各种语病对应的概率值,设定阈值,若针对某一种语 病的概率输出超过该阈值,则认为该句子包含这种错误。 本专利技术利用从句子中提取特征,将句子变为特征向量;再将特征向量输入到深度 神经网络模型中,获得深层次特征表示;最后针对于多标记分类的神经网络输出,获得最终 多标记分类结果,从而准确定位到句子中究竟包含哪些错误。实现了将句子的特征表示升 级到基于神经网络的隐藏层表示中,通过多标记的方法输出可能的语病,从而完成病句的 检测。 本专利技术针对句子识别其中语病,并且可以做到识别句子中的多种语病,避免了人 工选择特征,同时也能提升多种语病的预测的准确度。【附图说明】 图1是本专利技术所述方法流程示意图; 图2是基本的单隐藏层神经网络示意图; 图3是病句分析示例。【具体实施方式】 下面通过实例对本专利技术做进一步的说明,但是需要注意的是,给出实例的目的在 于帮助进一步理解本专利技术,但是本领域的技术人员可以理解:在不脱离本专利技术及所附的权 利要求的精神和范围内,各种替换和修改都是可能的。因此,本专利技术不应局限于实例所公开 的内容,本专利技术要求保护的范围以权利要求书界定的范围为准。 输入句子"通过这次学习,使我的水平有了很大的提高"为一个实例,本专利技术首先 需要获得词的信息及句法分析信息,这里采用带词性信息的词作为句子中词的信息,采用 依存分析结果作为句子中句法分析的信息。如对应的词、词性序列是"通过/P,这/DT, 次 /M,学习 /NN,,/PU,使 /VV,我 /PN,的 /DEG,水平 /NN,有 /VE,了 /AS,极大 /JJ,的 /DEG,提高/NN。/PU"。,其对应的依存关系包括:"pr印(使-6,通过-l),det (学习-4, 这-2),clf (这-2,次-3),pob j (通过-1,学习-4),root (R00T-0,使-6),assmod (水 平-9,我-7),assm (我-7,的-8),dob j (使-6,水平-9),d印(使-6,有-10),asp (有-10, 了-11) ,assmod (提尚。-14,极大-12),assm(极大-12,的-13),dob j (有-10,提尚。-14)"。 特征就是句子的一种抽象表示。可以直接使用已有的特征提取方法,也可以自己 定义特征。例如,以出现的词、词性、词与词之间的依存关系作为特征,形成特征集合。当然, 特征集合可以不限于此。 接下来需要将特征向量输入到深度神经网络模型中,通过深度神经网络的计算, 得到深层次压缩表示。深度神经网络模型算法可以是现有的任何一种深度神经网络算法。 基本的单隐藏层神经网络示意图见图2。 深度神经网络的最后一层输出,作为多标记分类层的输入,计算得到最终确定的 语病类型。分类标注层输出包含每一种语病的概率,按照一定的准则得到最终确定的语病 结果。这里按阈值筛选方法,取概率超过给定阈值的语病类型作为句子包含的语病;如果没 有一种语病的概率超过阈值,则认为句子不包含语病。 用于多标记分类的神经网络的激活函数可以选择Softmax,此时,归一化的公式 为: 其中,yi为第i种语病,h是隐藏层的值,w i对应第i个输出的权重向量。 下面以几个例子说明病句的识别。 图3分别列出了三个包含多种语病的病句例子。例如第一句,原句为"后来一个人 搞小小的摊位,把这个企业慢慢大,现在开了一个很大的商场了。",其中包含了 "缺失定语" 与"把字句错误",修改后正确的句子应当是:"后来一个人搞小小的摊位,这个企业慢慢大, 现在开了一个很大的商场了"。本专利技术给出的方法可以根据原句提取对应的特征序列,通过 深度神经网络与多标记分类,得出该句话包含"缺失定语"错误以及"把字句错误"。 其它两个句子也可以通过类似的方法分析。其对应的正确的句子分别是:"朝鲜战 争以后所有的一切被破坏了,大部分人很穷"与"可以说我对旅游的内外部结构的了解已达 到一定的水平"。【主权项】1. 一种病句检测方法,其特征在于,包括如下步骤: 步骤一:对于一个输入的句子,表示为一个实例;然后根据词法、句法分析提取特征, 将实例转换为特征向量; 步骤二:将步骤一得到的特征向量作为深度神经网络的输入,通过深度神经网络的计 算,逐层获得压缩表示; 步骤三:将最后一层神经网络的压缩表示作为多标记分类层的输入,计算得到最终确 定的语病类型。2. 如权利要求1所述的病句检测方法,其特征在于,步骤一包括:对实例进行预处理, 包括汉语词切分和词性标注以及依存分析。3. 如权利要求1所述的病句检测方法,其特征在于,步骤一包括:以出现的词、词性、词 与词之间的依存关系作为特征。4. 如权利要求1所述的病句检测方法,其特征在于,步骤三包括:计算获得各种语病对 应的概率值,设定阈值,若针对某一种语病的概率输出超过该阈值,则认为该句子包含这种 错误。【专利摘要】本专利技术提供,该方法的核本文档来自技高网...

【技术保护点】
一种病句检测方法,其特征在于,包括如下步骤:步骤一:对于一个输入的句子,表示为一个实例;然后根据词法、句法分析提取特征,将实例转换为特征向量;步骤二:将步骤一得到的特征向量作为深度神经网络的输入,通过深度神经网络的计算,逐层获得压缩表示;步骤三:将最后一层神经网络的压缩表示作为多标记分类层的输入,计算得到最终确定的语病类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:王厚峰张龙凯
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1