【技术实现步骤摘要】
本专利技术涉及一种利用计算机进行汉语浅层句法分析的方法,特别是一种利用基于状态转移与神经网络相结合的方式进行自动汉语组块分析的方法。
技术介绍
汉语句法分析是汉语信息处理中的一项基本任务,其广泛的应用需求吸引了大量相关研究从而促进了其相关技术的快速发展。完整的句法分析因其问题自身复杂性较高等因素以致分析正确率较低、速度较慢,从而实用性受限。组块分析,又叫浅层句法分析,与以获得一个句子的完整句法树为目的的完整句法分析不同,其分析目标是识别句子中某些结构相对简单、非嵌套的句子成分,例如非嵌套的名词短语、动词短语等。由于其识别目标是句子中非嵌套、不重叠的符合一定语法规定的短语成分,所以相对于完整句法分析而言组块分析任务的复杂度较小,处理速度也更快,同时由于它可以作为机器翻译、完整句法分析、信息抽取等诸多任务的前处理阶段,所以一直受到研究人员的关注。针对汉语的组块分析,随着汉语树库的出现以及有研究人员从中抽取了针对组块分析任务的数据集以来,相关研究持续不断。在建模组块分析任务的方式中,将其看成序列化标注任务是一种常见手段。其工作过程是:针对待分析的句子,以词为单位,从左 ...
【技术保护点】
一种基于状态转移与神经网络的汉语组块分析方法,其特征在于,包括如下步骤:步骤1,计算机读取一个包含待分析句子的汉语文本文件,定义汉语组块的类型,对待分析句子进行分词并对每个词进行词性标注,进行词性标注时,根据当前句子状态确定所能选择的词性标注类型;步骤2,利用基于状态转移和神经网络的方法对待分析句子进行汉语组块分析。
【技术特征摘要】
1.一种基于状态转移与神经网络的汉语组块分析方法,其特征在于,包括如下步骤:步骤1,计算机读取一个包含待分析句子的汉语文本文件,定义汉语组块的类型,对待分析句子进行分词并对每个词进行词性标注,进行词性标注时,根据当前句子状态确定所能选择的词性标注类型;步骤2,利用基于状态转移和神经网络的方法对待分析句子进行汉语组块分析。2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:步骤1-1,根据表1定义的12种短语类型定义汉语组块类型;表1类型含义ADJP形容词短语ADVP副词短语CLP类别型短语DNP多重限定短语DP限定词短语DVP地字短语LCP方位短语LST序列短语NP名词短语PP介词短语QP数量词短语VP动词短语步骤1-2,采用BIOES标注体系与步骤1-1中定义的汉语组块类型相结合的方式确定标注过程中对每个待标注词进行词性标注时所能选择的标注类型。3.根据权利要求2所述的方法,其特征在于,步骤2中,将汉语组块分析过程当成一个序列化标注任务,标注的类型由步骤1-1中定义的汉语组块类型和步骤1-2中采用的BIOES标注体系相结合的方式生成。4.根据权利要求3所述的方法,其特征在于,在整个步骤2中用n表示待分析句子的长度,步骤2包括如下步骤:步骤2-1,给定状态下,在处理第t个词时对所有标注类型进行打分,此时给定的状态即为待分析句子前t-1个词已完成标注且已知其对应的标注类型,第t到第n个词为未标注词以及第t个词为下一个待处理词;步骤2-2,给定状态集合St,在处理第t个词时对该状态集合中的每个状态按步骤2-1中的方式对所有标注类型进行打分,该打分通过计算完成,将赋予每个标注类型一个实数值,此实数值称为该类型对应的得分,再按步骤1-2所述方式生成候选标注类型,按每个候选标注类型对词进行标注从而对该状态进行扩展,并按柱搜索的方式挑选得分最高的m个新状态,得到新的状态集合St+1;步骤2-3,对t=1,2,…,n,迭代执行步骤2-1和2-2,得到最终的目标状态集合Sn+1,并取出其中得分最高的状态从该状态出发回溯得到得分最高的标注序列,此时所有词的类型标注都已完成,将该得分最高的标注序列还原为对应的组块分析结果,该结果即为当前句子的分析结果。5.根据权利要求4中所述的方法,其特征在于,步骤2-1包括如下步骤:步骤2-1-1,生成特征向量,特征向量包括基本信息特征向量和附加信息特征向量;步骤2-1-2,利用前向神经网络对步骤2-1-1中生成的特征向量进行计算得到所有候选标注类型的得分。6.根据权利要求5中所述的方法,特征在于,在整个步骤2-1-1中待分析句子中的所有词从左到右依次表示为w1,w2,…,wn,wn表示待分析句子中第n个词,n取值为自然数;待分析句子中所有词对应的词性从左到右依次表示为p1,p2,…,pn,pn表示待分析句子中第n个词对应的词性;一个特征*对应的特征向量表示为e(*),步骤2-1-1包括如下步骤:步骤2-1-1-1,生成基本信息特征向量,基本信息特征向量包括以当前待标注词所在位置为基准的一定窗口内的词和词性特征对应的特征向量,以及以当前待标注词所在位置为基准的一定窗口内的已标注词所属类别特征对应的特征向量;具体过程如下:基本信息特征中词特征向量包括:以当前待处理词为中心向左数第二个词对应的特征向量e(w-2)、以当前待处理词为中心向左数第一个词对应的特征向量e(w-1)、当前待处理词对应的特征向量e(w0)、以当前待处理词为中心向右数第一个词对应的特征向量e(w1),以及以当前待处理词为中心向右数第二个词对应的特征向量e(w2);词性特征向量包括:以当前待处理词为中心向左数第二个词的词性对应的特征向量e(p-2)、以当前待处理词为中心向左数第一个词的词性对应的特征向量e(p-1)、当前待处理词的词性对应的特征向量e(p0)、以当前待处理词为中心向右数第一个词的词性对应的特征向量e(p1)、以当前待处理词为中心向右数第二个词的词性对应的特征向量e(p2)、以当前待处理词为中心向左数第二个词和第一个词的词性组合对应的特征向量e(p-2p-1)、以当前待处理词为中心向左数第一个词和当前待处理词的词性组合对应的特征向量e(p-1p0)、以当前待处理词为中心向右数第一个词和当前待处理词的词性组合对应的特征向量e(p0p1)、以当前待处理词为中心向右数第二个词和第一个词的词性组合对应的特征向量e(p1p2);步骤2-1-1-2,生成附加信息特征向量:附加信息特征向量包括以当前待标注词所在位置为基准的一定窗口内已标注组块相关的词特征向量和词性特征向量、使用双向长短记忆神经网络模型计算的当前待标注位置的词特征向量和词性特征向量。7.根据权利要求6中所述的方法,其特征在于,步骤2-1-1-2包括如下步骤:步骤2-1-1-2-1,以当前待处理词为中心向左数第二个组块、第一个组块分别表示为c-2、c-1,组块ci的第一个词表示为start_word(ci),最后一个词表示为end_word(ci),i=-2,-1,语法中心词表示为head_word(ci),组块ci的第一个词的词性表示为start_POS(ci)、最后一个词的词性表示为end_POS(ci),语法中心词的词性表示为head_POS(ci),生成以当前待标注词所在位置为基准的一定窗口内已标注组块相关的词特征向量和词性特征向量:组块级别的词特征向量包括:以当前待处理词为中心向左数第二个组块的第一个词的特征向量e(start_word(c-2))、以当前待处理词为中心向左数第二个组块的最后一个词的特征向量e(end_word(c-2))、以当前待处理词为中心向左数第二个组块的语法中心词的特征向量e(head_word(c-2))、以当前待处理词为中心向左数第一个组块的第一个词的特征向量e(start_word(c-1))、以当前待处理词为中心向左数第一个组块的最后一个词的特征向量e(end_word(c-1))、以当前待处理词为中心向左数第一个组块的语法中心词的特征向量e(head_word(c-1));组块级别的词性特征向量包括:以当前待处理词为中心向左数第二个组块的第一个词的词性的特征向量e(start_POS(c-2))、以当前待处理词为中心向左数第二个组块的最后一个词的词性的特征向量e(end_POS(c-2))、以当前待处理词为中心向左数第二个组块的语法中心词的词性的特征向量e(head_POS(c-2))、以当前待处理词为中心向左数第一个组块的第一个词的词性的特征向量e(start_POS(c-1)、以当前待处理词为中心向左数第一个组块的最后一个词的词性的特征向量e(end_POS(c-1))、以当前待处理词为中心向左数第一个组块的语法中心词的词性的特征向量e(head_POS(c-1));步骤2-1-1-2-2,使用双向长短记忆神经网络模型计算生成当前待标注位置的词和词性信息特征向量:双向长短记忆神经网络模型的输入为待分析句子中的所有词以及待分析句子中所有词对应的词性,输出为前向词特征向量、前向词性特征向量、后向词特征向量和后向词性特征向量,下面公式中所用的tanh是双曲函数,为一个实值函数,其作用在一个向量上表示对向量中的每个元素都做此操作,得到一个与输入向量维度相同的目标向量;σ是sigmod函数,为一个实值函数,其作用在一个向量上表示对向量中的每个元素都做此操作,得到一个与输入向量维度相同的目标向量;⊙是点乘运算,即将两个维度相同的向量按位做乘法得到一个相同维度的结果向量,这四种特征向量的计算过程如下:前向词特征向量依次表示为hf(w1),hf(w2),…,hf(wn),hf(wt)表示第t个前向词特征向量,其计算方式按如下公式进行: f t w f = σ ( W f h w f h f ( w t - 1 ) + W f x w f e ( w t ) + W f c w f c t - 1 w f + b f w f ) , ]]> i t w f = σ ( W i h w f h f ( w t - 1 ) + W i x w f e ( w t ) + W i c w f c t - 1 w f + b i w f ) , ]]> o t w f = σ ( W o h w f h f ( w t - 1 ) + W o x w f e ( w t ) + W o c w f c t w f + b o w f ) , ]]>其中,是已经训练好的模型参数矩阵,矩阵中每个元素的值均为实数值,这组参数与t无关,即一个计算序列中的所有计算单元共享同一组参数;是第t个计算单元中的中间计算结果,均为实值向量;e(wt)、hf(wt-1)、是第t个计算单元的输入,均为实值向量,其中的e(wt)即为词wt对应的特征向量;hf(wt)、为第t个计算单元的输出,为长短记忆神经网络模型的辅助计算结果,最终作为前向词特征向量的只有hf(wt-1),由于这是一个序列化的计算模型,第t-1个计算单元的输出hf(wt-1)、即为第t个计算单元的输入;前向词性特征向量依次表示为hf(p2),…,hf(pn),hf(pt)表示第t个前向词性特征向量,其计算方式按如下公式进行: f t p f = σ ( W f h p f h f ( p t - 1 ) + W f x p f e ( p t ) + W f c p f c t - 1 p f + b f p f ) , ]]> i t p f = σ ( W i h p f h f ( p t - 1 ) + W i x p f e ( p t ) + W i c p f c t - 1 p f + b i ...
【专利技术属性】
技术研发人员:戴新宇,程川,陈家骏,黄书剑,张建兵,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。