一种多序列标注问题的联合识别方法技术

技术编号:8533016 阅读:232 留言:0更新日期:2013-04-04 16:09
本发明专利技术提供了一种多序列标注问题的联合识别方法,包括以下步骤:步骤1:针对任务I,只采用基本特征生成分类器A,针对任务II,只采用基本特征生成分类器B;步骤2:针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2;步骤3:使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA;步骤4:重复步骤2和3,直到两个任务的准确率达到最大值。本发明专利技术弥补了序列标注任务单独识别时不能从其他任务得到有用信息的缺点,使得多个任务之间有效的交换信息,并通过分类器集成,提高整个任务的准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域的识别方法,主要涉及多任务的识别,包括组块识另Ij、分词、词性标注等序列标注任务的联合识别。
技术介绍
在自然语言处理领域,很多任务都是基于流水线识别的,即将一个复杂的任务简化为几个较简单的,依序完成的任务。对中文进行词性标注前,先对其进行分词。这样处理可以有效地减少计算的复杂性,但同时它也会带来两个问题一是错误传递,前一个任务的错误会带到后一个任务中,如分词的错误会带到词性标注中;二是两个任务之间的信息不能共享,磁性标注有利于提高分词的准确性,但是先分词再进行词性标注,不能利用词性提高分词的准确率。为了减少在多任务识别中采用流水线方法造成的错误传递,可以首先对第一个任务生成η个最优值,然后将这η个可能值传到第二个任务,并通过重排序方法或者约束满足方法得到第二个任务的最优值(附图说明图1)。这种方法能够将第一个任务的信息传递到第二个任务,但是不能传递回去。霍林斯赫德提出了一种短语识别和句法分析的迭代识别方法(图2)。但是试验结果表明,对于序列标注问题,直接的迭代识别反而降低单个任务的准确率。图1和图2中,Task I和Task 11表示任务I和任务11,分类器A,B表示采用基本特征的分类器,A2, B2表示采用基本特征和其他任务特征的分类器。
技术实现思路
针对多个任务单独识别时存在的问题,本专利技术提出了一种迭代识别的方法,能够使多任务之间相互传递信息,解决错误传递和信息不能共享的问题,提高识别的准确率。,包括以下步骤步骤1:针对任务I,只采用基本特征生成分类器A,针对任务II,只采用基本特征生成分类器B ;步骤2 :针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2 ;步骤3 :使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA ;步骤4 :重复步骤2和3,直到两个任务的准确率达到最大值;分类器A,B表示采用基本特征的分类器,A2, B2表示采用基本特征和 其他任务特征的分类器,而CA,CB则分别表示集成的分类器。作为本专利技术的进一步改进,对每个子分类器A,B, A2, B2都在反向句子序列上训练模型,对于每个任务都产生四个不同的分类器来用于集成识另U,那么,上述四个步骤为以下四步步骤1:针对任务I,只采用基本特征生成分类器A,A’,针对任务II,只采用基本特征生成分类器B,B’ ;步骤2 :针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器 A2,A2,,针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2,B2,;步骤3使用集成识别算法将分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA;步骤4 :重复步骤2和3,直到达到最大值;分类器A,B表示采用基本特征的分类器,A2, B2表示采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器;分类器A’,B’表示反向采用基本特征的分类器,A2’,B2’表示反向采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器。作为本专利技术的进一步改进,对于分类器A、A’、A2、A2’、B、B’、B2、B2’和集成分类器CA、CB都采用平均感知器方法进行识别。作为本专利技术的进一步改进,平均感知器方法如下对于一个输入句子X,它的最优标注为本文档来自技高网...

【技术保护点】
一种多序列标注问题的联合识别方法,其特征在于,包括以下步骤:步骤1:针对任务I,只采用基本特征生成分类器A,针对任务II,只采用基本特征生成分类器B;步骤2:针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2;步骤3:使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA;步骤4:重复步骤2和3,直到两个任务的准确率达到最大值;分类器A,B表示采用基本特征的分类器,A2,B2表示采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器。

【技术特征摘要】
1.一种多序列标注问题的联合识别方法,其特征在于,包括以下步骤 步骤1:针对任务I,只采用基本特征生成分类器A, 针对任务II,只采用基本特征生成分类器B ; 步骤2 :针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2, 针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2 ; 步骤3 :使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA ; 步骤4 :重复步骤2和3,直到两个任务的准确率达到最大值; 分类器A,B表示采用基本特征的分类器,A2, B2表示采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器。2.根据权利要求1所述的一种多序列标注问题的联合识别方法,其特征在于对每个子分类器A,B, A2, B2都在反向句子序列上训练模型,对于每个任务都产生四个不同的分类器来用于集成识别,那么,上述四个步骤为以下四步 步骤1:针对任务I,只采用基本特征生成分类器A,A’, 针对任务II,只采用基本特征生成分类器B,B’ ; 步骤2 :针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2, A2,, 针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2,B2’;步骤3使用集成识别算法将分类器B、B’和B2、B2...

【专利技术属性】
技术研发人员:王轩李鑫鑫张加佳赵海楠李晔
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1