基于转移方法的字级别中文组块分析方法技术

技术编号:17878833 阅读:38 留言:0更新日期:2018-05-06 00:40
本发明专利技术提供一种基于转移方法的字级别中文组块分析方法,包括以下步骤:步骤一、构建一套转移系统,所述转移系统对句子进行一系列转移操作处理;步骤二、对于已标注的组块分析数据集,通过步骤一中的所述转移系统的处理后,训练组块分析模型;步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试,得出与生文本对应的分词、词性标注和组块分析结果。本发明专利技术的基于转移方法的字级别中文组块分析方法具有能够减少错误传播的问题以及能够取得更好地组块分析性能的有益效果。

Word level Chinese chunking analysis method based on transfer method

The present invention provides a word level Chinese block analysis method based on the transfer method, including the following steps: Step 1, building a set of transfer systems, the transfer system carries out a series of transfer operations on the sentence; step two, for the annotated block analysis data set, through the step one of the transfer system After processing, the training block analysis model is trained; step three, the parsing analysis model of the raw text input is used to carry out the word level block analysis and test to get the result of the word segmentation, part of speech tagging and block analysis corresponding to the raw text. The Chinese block analysis method based on the transfer method of the invention has the advantage of reducing the problem of error propagation and achieving better block analysis performance.

【技术实现步骤摘要】
基于转移方法的字级别中文组块分析方法
本专利技术涉及自然语言处理领域,具体涉及一种基于转移方法的字级别中文组块分析方法。
技术介绍
组块分析,又叫浅层句法分析(shallowparsing),与句法分析为了获得一个句子的完整句法树不同。组块分析的目标是识别出句子中某些句法相关、结构相对简单、不重叠的句子成分,例如名词短语、动词短语等。同时,与词性标注相比,组块分析能够包含更深层次的句法相关的信息。组块分析是自然语言处理中的一个标准基础任务,对其他的自然语言处理技术应用也能够起到很重要的作用。将组块信息应用在机器翻译、问答系统以及命名实体识别等任务中,可以有效提升现有系统的实际性能。对于基于字的语言,如中文来说,与英语不同的特点是,分词是它们的一个独特挑战,并且在很多任务中,分词都是一个必须的预处理步骤,在此基础上再进行其他的后续处理任务。在中文组块分析方面,之前大部分工作都假设已经给出了标准的分词和词性标注结果,但是当使用自动分词结果时,其结果会引起错误传播的问题。比如分词和词性标注的错误会导致下一步组块分析的错误,中文组块分析系统的性能会有大幅度的下降。两者之间的较大的对比差距表明,在实际的应用中,组块分析系统在生语料上的性能仍然有比较大的提升空间。因此,本领域迫切需要研发出一种能够准确处理生语料上进行组块分析的方法。
技术实现思路
本专利技术之目的是提供一种基于转移方法的字级别中文组块分析方法,能够减少错误传播的问题以及能够取得更好地组块分析性能。本专利技术提供一种基于转移方法的字级别中文组块分析方法,包括以下步骤:步骤一、构建一套转移系统,所述转移系统对句子进行一系列转移操作处理;步骤二、对于已标注的组块分析数据集,通过步骤一中的所述转移系统转移操作处理后,训练组块分析模型;步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试,得出与生文本对应的分词、词性标注和组块分析结果。优选地,步骤一中的所述转移系统中的每个状态包括一个栈、一个缓存和一个队列,其中,所述栈包含已进行组块标注的部分不完整句子;所述缓存包含已进行分词和词性标注过的部分不完整结果;以及所述队列包含未处理的字序列。优选地,步骤一中的所述一系列转移操作包括分割词性、添加词、终止词、分割组块类型、添加组块、终止。优选地,所述转移操作中所述分割词性、添加词、终止词、分割组块类型、添加组块、终止的操作顺序随机。优选地,步骤二中在训练组块分析模型开始之前,模型的参数被初始化为全零向量,并用于开始对训练句子进行解码。优选地,所述解码算法采用BeamSearch解码算法。优选地,步骤二中的训练算法采用感知器算法,并且在采用感知器算法的过程中采用自更新机制,所述自更新机制即是在解码过程中任何字的位置均能进行实时参数更新。优选地,所述步骤二中已标注的组块分析数据集为人工标注的组块分析数据集。优选地,所述步骤二对于已标注的组块分析数据集,通过步骤一中的所述转移系统的处理后,训练得出组块分析模型,其中,在训练过程处理完全部训练句子时,开始进行下一轮迭代转移操作,并且同样的训练句子被用于模型训练过程中的多个迭代转移操作过程中。本专利技术的基于转移方法的字级别中文组块分析方法相比现有技术具有如下有益效果:本专利技术采用基于转移操作的方法,能够同时实现分词、词性标注和组块分析这三个任务,与先进行分词和词性标注、再进行基于词的组块分析的串行方法相比,其联合模型能够减少错误传播的问题,取得更好的组块分析性能。附图说明下面将简要说明本申请所使用的附图,显而易见地,这些附图仅用于解释本专利技术的构思。图1是本专利技术的基于转移方法的字级别中文组块分析方法的流程示意图。具体实施方式在下文中,将参照附图描述本专利技术的基于转移方法的字级别中文组块分析方法的实施例。在此记载的实施例为本专利技术的特定的具体实施方式,用于说明本专利技术的构思,均是解释性和示例性的,不应解释为对本专利技术实施方式及本专利技术范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案,这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。本说明书的附图为示意图,辅助说明本专利技术的构思,示意性地表示各部分的相互关系。请注意,为了便于清楚地表现出本专利技术实施例的各部分的关系。相同或相似的参考标记用于表示相同或相似的部分。图1是本专利技术的基于转移方法的字级别中文组块分析方法的流程示意图,如图1所示,本专利技术提供了一种基于转移方法的字级别中文组块分析方法,包括以下步骤:步骤一、构建一套转移系统,转移系统对句子进行一系列转移操作处理;步骤二、对于已标注的组块分析数据集,通过步骤一中的转移系统的转移操作处理后,训练组块分析模型;步骤三、将生文本输入组块分析模型进行字级别组块分析测试,得出与生文本对应的分词、词性标注和组块分析结果。需要说明的是,步骤一中的转移系统在对一个句子进行一系列的转移操作处理后,能够实现对字级别中文组块分析,得到其分词、词性标注和组块分析结果。此外,步骤一中的转移系统中的每个状态包括一个栈、一个缓存和一个队列,其中,栈包含已经进行了组块标注的部分不完整句子,缓存则是用于保存部分已经分词和词性标注过的不完整结果,队列则是包含未经处理的字序列。在本专利技术的进一步实施例中,步骤一中的一系列转移操作包括分割词性、添加词、终止词、分割组块类型、添加组块、终止。但是,需要说明的是,上述转移操作中分割词性、添加词、终止词、分割组块类型、添加组块、终止的操作顺序并非是固定唯一的,而是根据转移操作在具体处理句子的过程中根据实际情况进行转移操作选择,并非仅仅是按照分割词性、添加词、终止词、分割组块类型、添加组块、终止的转移操作的顺序,还可以是分割词性、添加词、终止词、分割组块类型、分割词性、终止词、添加组块、终止,当然还可以是其他转移操作顺序。进一步地,对转移操作中每个步骤进行如下定义:分割词性:移除队列前面的字,并把该字作为一个新词的开始(词性标注为TAG标签)添加到缓存中。添加词:移除队列前面的字,并把它添加到缓存中的最后一个不完整词的后面,作为当前最后一个词的延续。终止词:把缓存中的最后一个词标记为一个完整词。分割组块类型:移除缓存前面的词,并把它作为一个新的组块的开始(组块类型标注为TYPE)添加到栈上。添加组块:移除缓存前面的词,并把它添加到栈上最后一个不完整的组的后面。终止:终止操作,当前状态为终止状态,对应句子的分词、词性标注和组块分析的结果。参见如下表1,表1为一具体实例来对基于转移方法的字级别中文组块分析方法中的转移操作过程和结果进行一个更详细的解释,其中给出了句子“他到达北京机场。”,通过转移操作系统对其进行联合分词、词性标注和组块分析的操作序列实例。如表1所示,转移系统对一个句子在通过SEP(TAG)(分割词性)、FINW(终止词)、SEP(TYPE)(分割组块类型)、APPW(添加词)与APPC(添加组块)等转移操作步骤,但是具体转移操作步骤顺序不固定,需要根据具体处理的句子进行具体转移操作步骤,为此表1中步骤6~步骤15之间进行省略,在进行了一系列的转移操作后得出最后的分词、词性标注和组块分析结果,即【NP他/NR】【VP到达/VV】【NP北本文档来自技高网...
基于转移方法的字级别中文组块分析方法

【技术保护点】
一种基于转移方法的字级别中文组块分析方法,其特征在于,包括以下步骤:步骤一、构建一套转移系统,所述转移系统对句子进行一系列转移操作处理;步骤二、对于已标注的组块分析数据集,通过步骤一中的所述转移系统转移操作处理后,训练组块分析模型;步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试,得出与生文本对应的分词、词性标注和组块分析结果。

【技术特征摘要】
1.一种基于转移方法的字级别中文组块分析方法,其特征在于,包括以下步骤:步骤一、构建一套转移系统,所述转移系统对句子进行一系列转移操作处理;步骤二、对于已标注的组块分析数据集,通过步骤一中的所述转移系统转移操作处理后,训练组块分析模型;步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试,得出与生文本对应的分词、词性标注和组块分析结果。2.根据权利要求1所述的基于转移方法的字级别中文组块分析方法,其特征在于,步骤一中的所述转移系统中的每个状态包括一个栈、一个缓存和一个队列,其中,所述栈包含已进行组块标注的部分不完整句子;所述缓存包含已进行分词和词性标注过的部分不完整结果;以及所述队列包含未处理的字序列。3.根据权利要求2所述的基于转移方法的字级别中文组块分析方法,其特征在于,步骤一中的所述一系列转移操作包括分割词性、添加词、终止词、分割组块类型、添加组块、终止。4.根据权利要求3所述的基于转移方法的字级别中文组块分析方法,其特征在于,所述转移操作中所述分割词性、添加词、终止词、分割组块类型、添加组块、终止的操作顺序随机。5...

【专利技术属性】
技术研发人员:王家彬吕晨
申请(专利权)人:北京牡丹电子集团有限责任公司数字电视技术中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1