一种基于协同训练的双语命名实体识别方法技术

技术编号:10120605 阅读:264 留言:1更新日期:2014-06-12 09:08
本发明专利技术公开了一种基于双语协同训练的命名实体的识别方法,属于计算机科学中的自然语言处理技术领域。把平行的汉语句子和英语句子这两个数据集看作为一个数据集的两个不同的视图进行双语协同训练。在投射过程中使用一个对数线性模型修正投射标记,在利用模型对未见示例进行预测时引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标。本方法对比现有技术,降低了命名实体识别的领域依赖性,融合了双语识别的优势,解决了单语识别中的部分识别歧义问题,尤其适合用于大规模语料的双语命名实体同步识别。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于双语协同训练的命名实体的识别方法,属于计算机科学中的自然语言处理
。把平行的汉语句子和英语句子这两个数据集看作为一个数据集的两个不同的视图进行双语协同训练。在投射过程中使用一个对数线性模型修正投射标记,在利用模型对未见示例进行预测时引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标。本方法对比现有技术,降低了命名实体识别的领域依赖性,融合了双语识别的优势,解决了单语识别中的部分识别歧义问题,尤其适合用于大规模语料的双语命名实体同步识别。【专利说明】—种基于协同训练的双语命名实体识别方法
本专利技术涉及一种双语命名实体的识别方法,尤其适用于作为机器翻译的前期处理,对大规模跨领域的双语语料进行命名实体的识别,属于计算机科学中的自然语言处理(NLP)

技术介绍
命名实体是唯一个体的专有名称。命名实体识别是自然语言处理领域中的一个重要基础技术难题,已经成为跨语言信息检索以及机器翻译等多语言信息处理领域的技术瓶颈之一。目前,研究人员已经开发了很多模型用于命名实体识别。其中,由于基于规则的方法不利于在不同种类语言之间推广,近些年来,基于统计的方法受到了广泛关注。在统计方法中,有监督学习方法在命名实体识别任务中有良好的表现,但是它有两个不足之处:其一,该方法需要大量的已标注数据保证学习的准确性,因此不适于那些资源相对贫乏的语言;其二,当已有的标注数据与待判定的数据不属于同一个领域时,有监督学习方法的性能会明显下降。而无监督的方法性能则不尽人意。改进这些不足的方法就是结合少量标注语料和大量的未标注语料,采用基于半监督学习的协同训练方法。
技术实现思路
本专利技术的目的是为了克服现有技术在解决大规模跨领域语料中双语命名实体识别中的不足,提出。本专利技术所采用的技术方案是:将平行的汉英双语句子这两个数据集,看作一个数据集的两个不同的视图进行双语协同训练。在汉英两端,分别在少量的标注数据上进行初始标注模型训练,产生两个初始序列标注模型。利用训练好的初始序列标注模型对跨领域的小部分未标注语料进行命名实体标注,然后把标注结果投射到对应的另一语言端。在投射过程中使用一个对数线性模型,融合单语句法特征和双语对齐特征对投射标记进行修正,从而降低标记示例错误标注的可能性,减少另外一个序列标注模型的噪音引入,进而提高协同训练的质量。在利用序列标注模型对未见示例进行预测时,引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标,隐式估计标记置信度,把在未标注样本中双语对齐标注一致率最高的标注集合作为另一端的增量标注,由此摆脱了对小样本标记数据的依赖,提高了算法的泛化能力,从而提高命名实体的跨领域识别能力。为使命名实体双语协同识别任务顺利进行,本方法将采用三个步骤,分别是:标注模型初始化、双语协同训练、双语命名实体标注。如图1所示,具体实现过程如下:步骤一、初始化序列标注模型,在汉英句子级别对齐的若干已标注语料集合上分别训练初始序列标注模型。其中,序列标注模型可以选用条件随机场(CRF)、最大熵等。步骤二、如图2所示,从汉英句子级别对齐的未标注语料集合中抽取若干对齐的句子,利用序列标注模型对双语句子分别标注,形成(&,&);计算双语标注一致率,初始化标注语料增量集合为空。所述双语标注一致率是指在少量的双语未标注语料上,用序列标注模型标注后的对齐字词的标注一致比例。所述标注语料增量集合是指在完成一次协同训练时,作为标注语料添加到另一个模型的自动标注语料。具体的,随机从中抽取10%的句对,形成(心,厶),依据词对齐从^到it进行标注投射。首先对从源语言到目标语言的命名实体投射区域进行扩展,使之容纳更多的目标语言命名实体假设。然后融合目标语言命名实体的单语特征和双语命名实体的对齐特征,建立一个对数线性模型对投射结果进行修正。修正后的结果作为标注语料增量,重新进行模型训练。训练后的模型再次对(仄,(7/)进行标注,重新计算双语标注一致率,如此循环10次,最后把双语标注一致率最高时对应的标注语料增量作为本次协同训练的源语言端标注语料增量。同样的方法寻找目标语言端的增量标注语料。所述命名实体的单语特征是指单语端命名实体的边界组合特征,主要用于保障协同训练中增量标记语料符合命名实体的特征。所述双语命名实体的对齐特征是指双语命名实体的一致性,充分利用了双语的识别互补性。步骤三、循环执行步骤二,通过在开发集上实验,直至算法收敛。循环结束后,最终产生两个双语序列标注模型,即训练好的双语命名实体识别模型。然后对大规模的跨领域的双语语料进行命名实体的识别,进一步构建命名实体词典;也可以直接对待翻译的单语句子进行命名实体的识别,提高机器翻译的质量。有益效果 本专利技术通过在命名实体的序列标注模型的训练过程中引入了协同训练的思想,利用双语命名实体识别的互补性和命名实体的可互译性,进行识别模型的协同训练。本方法对比现有技术,能够实现双语命名实体的识别互补,提高在大规模跨领域语料中命名实体的识别正确率和召回率;有效减少命名实体识别对标注语料的领域依赖,使模型具有更强的泛化能力;本专利技术同时产生双语命名实体识别模型,协同训练的引入使命名实体双语识别一致性提高,有助于进一步命名实体词典的构建。综合上述,本专利技术尤其适合用于大规模跨领域的语料中双语命名实体的一致识别。【专利附图】【附图说明】图1为本专利技术方法的流程示意图;图2为本专利技术方法中协同训练过程的流程示意图。【具体实施方式】下面结合附图对本专利技术的【具体实施方式】做进一步详细说明。,包括以下步骤:步骤一、初始化双语序列标注模型,在汉英句子级别对齐的已标注语料集合Ls、Lt上分别训练汉英序列标注模型:Cmodel (s)和Cmodel (t)。标注语料中共标注了三种命名实体,分别是PER (人名)、LOC (地名)和ORG (组织机构名)。选用了 BIO标注集合,所有字词共有7种标注:B-PER、1-PER、B-L0C、1-L0C、B-0RG、1-ORG和O。汉语选用了单一字特征、单一词特征、2-3个位置的字或者词组合特征;英语选用了词、词性、词首字母大小写特征组合模版。步骤二、从汉英句子级别对齐的未标注语料集合Us和Ut中抽取1000个对齐的句子,分别利用序列标注模型Cmodel (s)和Cmodel (t)进行标注,形成仏和?τ汁算双语标注一致率 conformity_ration,初始化【权利要求】1.,其特征在于包括以下步骤: 步骤一、初始化标注模型;在2000句已标注命名实体的双语语料上,分别训练汉英命名实体初始标注模型; 步骤二、在汉英句子级别对齐的未标注命名实体语料上,利用10倍交叉选择增量标注,进行双语协同训练;具体过程如下: 首先,从汉英句子级别对齐的未标注命名实体语料集合中随机抽取1000个对齐的句子,表示为(GO),利用步骤一得到的标注模型,对双语句子分别进行命名实体标注;计算(L:.s.X./)双语标注一致率,初始化标注语料增量集合为空; 然后,随机从(仏,疥)中抽取10%的句对,形成(厶,--),依据词对齐从到进行标注投射,并对投射命名实体标注区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射本文档来自技高网
...

【技术保护点】
一种基于协同训练的双语命名实体识别方法,其特征在于包括以下步骤: 步骤一、初始化标注模型;在2000句已标注命名实体的双语语料上,分别训练汉英命名实体初始标注模型; 步骤二、在汉英句子级别对齐的未标注命名实体语料上,利用10倍交叉选择增量标注,进行双语协同训练;具体过程如下: 首先,从汉英句子级别对齐的未标注命名实体语料集合中随机抽取1000个对齐的句子,表示为利用步骤一得到的标注模型,对双语句子分别进行命名实体标注;计算双语标注一致率,初始化标注语料增量集合为空;然后,随机从中抽取10%的句对,形成依据词对齐从到进行标注投射,并对投射命名实体标注区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设;之后,融合目标语言命名实体的单语特征和双语命名实体的对齐特征,对投射结果进行修正,将修正后的结果作为目标语言端标注语料增量在上重新进行目标语言命名实体标注模型训练,并用训练后的标注模型重新对中的进行标注,重新计算双语标注一致率;循环执行上述过程,进行10倍交叉,将循环中双语标注一致率最高时对应的标注语料增量作为本次协同训练的目标语言端标注语料增量在上重新进行目标语言命名实体标注模型训练;使用同样的方法,寻找源语言端的增量标注语料在上重新进行源语言命名实体标注模型训练;步骤三、循环执行步骤二,通过在开发集上实验直至算法收敛;循环结束后,最终产生汉英两个命名实体标注模型,即训练好的双语命名实体识别模型;最后,对跨领域的双语语料进行命名实体的识别,进一步构建命名实体词典。...

【技术特征摘要】

【专利技术属性】
技术研发人员:黄河燕史树敏李业刚
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有1条评论
  • 来自[北京市电信互联网数据中心] 2015年02月01日 05:48
    “名为万物之始,万物始于无名,道生一,一生二,二生三,三生万物。这是来自《易经》的道家学说。曰:太极分阴阳为乾坤,阴阳分四象,四象分八卦,衍生出八八六十四卦。罗李华:大相(象)无形,大音无声,大能不显,大智若愚。可见东方的早期智者在于设法确定事物的本原起因,而非在一些生活琐碎事物上急于下定义,用文字语言对事物的命名也是慎之又慎、精益求精。”
    0
1