基于语言模型的GRU-CRF会议名称识别方法技术

技术编号:18658021 阅读:18 留言:0更新日期:2018-08-11 14:26
本发明专利技术公开了基于语言模型的GRU‑CRF会议名称识别方法,本方法分为两部分,一部分是基于GRU的语言模型,另一部分是基于GRU‑CRF的识别模型。使用有标注的监督数据训练标注模型GRU‑CRF,得到一个不需要特征工程和领域知识的端到端的识别模型。使用大量无标注数据对LM进行无监督训练,从无监督训练得到的LM中获取字向量作为GRU‑CRF的输入,可以提升监督训练的效果,提高识别模型的泛化能力,使得从少量标语料上训练有较好效果的命名实体识别模型成为可能。实验结果表明,LM‑GRU‑CRF方法在自建语料库上得到了最好的效果,对于其他缺乏标注预料的命名实体识别任务而言,可以使用该方法提高模型的效果。

GRU-CRF conference name recognition method based on language model

The present invention discloses a GRU_CRF conference name recognition method based on language model. The method is divided into two parts, one is a GRU_CRF-based language model, the other is a GRU_CRF-based recognition model. Using the labeled supervisory data to train the labeling model GRU_CRF, an end-to-end recognition model without feature engineering and domain knowledge is obtained. Using a large number of unlabeled data for unsupervised training of LM and getting word vectors from the unsupervised training of LM as input of GRU_CRF can improve the effect of supervised training and generalization ability of recognition model, which makes it possible to train named entity recognition model with better effect from a small number of slogans. The experimental results show that LM_GRU_CRF is the best method in the self-built corpus, and it can be used to improve the performance of the model for other unanticipated named entity recognition tasks.

【技术实现步骤摘要】
基于语言模型的GRU-CRF会议名称识别方法
本专利技术属于命名实体识别和深度学习领域,是一种基于语言模型(LanguageModel,LM)的GRU(GatedRecurrentUnit)与条件随机场(ConditionalRandomFields,CRF)结合的命名实体识别方法。这里识别的会议名称是特定领域的命名实体,只有少量标注语料可用,本专利技术主要是为了解决这种只有少量标注语料可用情况下的命名实体识别问题。
技术介绍
命名实体识别是自然语言处理的一项关键任务,在1995年的MUC会议上被第一次引入,目的是识别文本中的特定类型的事物名称和有意义的数量短语,包括命名性实体、时间、数字等三大类,又可细分为七个小类:人名、地名、机构名、时间、日期、货币以及百分比等。作为自然语言处理中的一项基础任务,命名实体识别对于机器翻译、信息的检索与抽取等工作有重要意义。随着时代的发展,命名实体识别的目标早已超出了上述几类的范围,特定领域的命名实体识别需求非常广泛,如电子病历、生物医学等领域,本文的子实验既是在会议名称识别这一特定领域的命名实体上展开的。除了需要识别的实体在不断增加外,命名实体识别方法也在不断进步和完善。传统的命名实体识别多采用基于规则和统计机器学习的方法。最初,命名实体识别采用基于手工制定词典和规则的方法。这些方法大多以语言学专家建立的规则知识库和词典为基础,采用模式匹配或者字符串匹配的方法识别命名实体。对于规律性强的文本,基于规则的方法准确而且高效。但对于规律性不强的文本,规则的编写变得困难,识别效果也相当不理想,所以人们开始将目光投向机器学习的方法。在命名实体识别领域常用的机器学习方法有隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场模型(ConditionalRandomFields,CRF)、最大熵模型(MaximumEntropy)、支持向量机模型(SupportVectorMachine,SVM)等[8-10]。其中最典型的也是应用比较成功的是隐马尔可夫模型和条件随机场模型。基于机器学习的方法在迁移性、识别效果等方面的表现优于基于规则的方法,但使用统计机器学习方法的命名实体识别模型也存在一些局限性。一方面,为了使推理易于处理,它需要明确的依赖性假设;另一方面,以统计模型为基础的机器学习方法对特征选取的要求比较高,需要选择对命名实体识别任务有影响的各种特征,即特征工程(featureengineering),它对识别结果有重要影响,但是该过程费时费力;最后,它们通常需要大量的与任务相关的特定知识,如设计HMM的状态模型,或选择CRF的输入特征。中文命名实体识别面临的挑战:随着时代发展,面向特定领域的新类型实体的识别需求不断增加,但识别这些实体通常面临只有少量标注语料可用的困境。统计机器学习的方法本身存在局限性,并且针对不同领与文本需要人工设计特征,并且需要一定的领域知识,需要过多的人力参与。随着深度学习研究的不断深入和众多科研成果的公布,人们开始利用深度神经网络来处理自然语言。2003年,Bengio提出了一种用于处理序列数据的人工神经网络模型,Goodman对其进行了进一步研究,实验结果证明这种模型在语音识别领域表现好于当时的其它模型,但是当网络层数比较深的时候,很容易过拟合。2006年Hinton提出一个可行的算法,在一定程度上减轻了深层神经网络过拟合的问题,并在图像和语音领域取得惊人的效果,使得深层学习成为近些年研究的热点。2011年Collobert提出一个基于窗口的深层神经网络模型,该模型从输入的句子中自动学习一系列抽象的特征,并通过后向传播算法来训练模型参数。其效果和性能超过了之前的传统算法。该模型的主要缺陷是使用固定长度的上下文,不能充分的利用语境信息。循环神经网络是深度学习中常用的一类神经网络,包括RNN和RNN的变体LSTM、GRU等,它利用序列信息并通过中间层保持这些信息,这使它在处理序列数据时有独特优势。Mikolov于2010年提出一种基于循环神经网络的语言模型,它不使用固定大小的上下文信息,通过重复链接,信息可以在这些网络内循环。实验结果表明,即使用于训练该模型的数据要少于训练统计模型的数据,该模型的表现也超过了基于统计方法的语言模型。2013年,Graves等人用循环神经网络进行语音识别,实验结果明显好于传统的机器学习方法。本专利技术使用循环神经网络在处理序列数据方面的优势,建立了基于循环神经网络的会议名称识别模型.循环神经网络包含多种不同的变体,经过分析对比,本专利技术最终选用了由RNN改进而来、结构相对简单的GRU.
技术实现思路
本专利技术主要是为了解决特定领域命名实体识别只有少数标注语料可用的的问题。本专利技术提出了一个基于LM的GRU与CRF结合的会议名称识别模型,分为两部分,一部分是基于GRU的语言模型,另一部分是基于GRU-CRF的识别模型。使用有标注的监督数据训练标注模型GRU-CRF,得到一个不需要特征工程和领域知识的端到端的识别模型。使用大量无标注数据对LM进行无监督训练,从无监督训练得到的LM中获取字向量可以提升监督训练的效果,提高识别模型的泛化能力,使得从少量标语料上训练有较好效果的命名实体识别模型成为可能。为了实现上述目的,本方法采用的技术方案为基于语言模型的GRU-CRF会议名称识别方法,该方法包括以下步骤:步骤1:对文本进行预处理,消除文本中不合理的字符对和无效字符,并使用语言模型训练字向量,得到字向量,建立向量字典。通过向量字典将输入句子中的每个字映射成固定长度的向量,作为神经网络的输入。步骤2:双向GRU网络作为特征提取层,使用一个前向GRU层和一个后向GRU层对输入的向量进行计算,提取字本身的特征和句子的语境特征,并将两层GRU计算的结果拼接为一个向量,作为输入的特征向量。步骤3:将步骤3的结果通过sigmoid函数进行变换,得到每个字对应标签的概率矩阵。步骤4:CRF层作为标注层,将步骤4的结果作为特征输入到CRF层,经CRF计算和Viterbi解码,并使用softmax进行归一化,得到句子级别的标签序列,该序列是综合了语境特征和标签依赖关系的序列,相较于由GRU单独判定标签的做法来说更合理。通过后处理,找到会议名称的标签,识别出会议名称。与其它方法相比,本专利技术具有如下有益的效果:基于GRU-CRF的标注模型充分利用了循环神经网络在处理序列数据方面的优势。对于特定领域的命名实体识别来说,由于可用的标注语料较少,为了避免未登录词过多带来的性能下降,采用按字输入的方法,这使得序列长度变长,GRU可以从容应对这一问题。另外,GRU与CRF的结合,不但自动提取了输入序列的特征,而且综合考虑了标签之间的依赖关系,给出的标注序列更加合理。本专利技术使用的识别方法不需要特征工程和领域知识等额外工作,是一种端到端的识别方法。最后,本专利技术使用无监督训练的语言模型产生字向量,该语言模型对语法语境信息进行了编码,提高了识别模型的效果,充分利用了无标注语料这种简单易得的数据集。附图说明图1是本专利技术设计的语言模型结构。图2是本专利技术设计的标注模型GRU-CRF示意图。图3是LM-GRU-CRF完整示意图。图4语言模型所使用语料的句长分布。图5本文档来自技高网
...

【技术保护点】
1.基于语言模型的GRU‑CRF会议名称识别方法,其特征在于:该方法包括以下步骤,步骤1:对文本进行预处理,消除文本中不合理的字符对和无效字符,并使用语言模型训练字向量,得到字向量,建立向量字典;通过向量字典将输入句子中的每个字映射成固定长度的向量,作为神经网络的输入;步骤2:双向GRU网络作为特征提取层,使用一个前向GRU层和一个后向GRU层对输入的向量进行计算,提取字本身的特征和句子的语境特征,并将两层GRU计算的结果拼接为一个向量,作为输入的特征向量;步骤3:将步骤3的结果通过sigmoid函数进行变换,得到每个字对应标签的概率矩阵;步骤4:CRF层作为标注层,将步骤4的结果作为特征输入到CRF层,经CRF计算和Viterbi解码,并使用softmax进行归一化,得到句子级别的标签序列,该序列是综合了语境特征和标签依赖关系的序列,相较于由GRU单独判定标签的做法来说更合理;通过后处理,找到会议名称的标签,识别出会议名称。

【技术特征摘要】
1.基于语言模型的GRU-CRF会议名称识别方法,其特征在于:该方法包括以下步骤,步骤1:对文本进行预处理,消除文本中不合理的字符对和无效字符,并使用语言模型训练字向量,得到字向量,建立向量字典;通过向量字典将输入句子中的每个字映射成固定长度的向量,作为神经网络的输入;步骤2:双向GRU网络作为特征提取层,使用一个前向GRU层和一个后向GRU层对输入的向量进行计算,提取字本身的特征和句子的语境特征,并将两层GRU计算的结果拼接为一个向量,作为输入的特征向量;步骤3:将步骤3的结果通过sigmoid函数进行变换,得到每个字对应标签的概率矩阵;步骤4:CRF层作为标注层,将步骤4的结果作为特征输入到CRF层,经CRF计算和Viterbi解码,并使用softmax进行归一化,得到句子级别的标签序列,该序列是综合了语境特征和标签依赖关系的序列,相较于由GRU单独判定标签的做法来说更合理;通过后处理,找到会议名称的标签,识别出会议名称。2.根据权利要求1所述的基于语言模型的GRU-CRF会议名称识别方法,其特征在于:第一、构建语料库;步骤1:文本搜集是构建语料库的第一步;本方法搜集的文本来自中国学术会议在线网;这里搜集了会议预告、会议新闻、会议评述、会议回顾的相关材料,一共得到了31.2M的初始文本;步骤2:人工筛选搜集的文本,删除与会议名称无关的段落,并使用结巴分词对文本句子进行切分,形成了初步标识的语料库;步骤3:标注已经处理过的文本,即人工标注会议名称;会议名称有两种,一种是简单会议名称,第二种是结构复杂的会议名称;这里采取的策略是最大化边界,即将最完整的会议名称作为一个标注单位,给予会议标签,完成标注;这样做的优势是可以根据后续实验的具体策略灵活的改变会议名称的标注方式,既能够采用并列结构分别标注的方法,也能够采用整体标注的方法;完成上述步骤后,得到了一个针对会议名称识别的专用语料库,为实验提供了可用的数据集;第二、语言模型训练;针对会议名称识别这类只有少量标注语料可用的任务而言,通过在大量无标注语料上训练语言模型,使用该训练语言模型产...

【专利技术属性】
技术研发人员:王洁张瑞东
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1