基于语言模型的GRU-CRF会议名称识别方法技术

技术编号：18658021 阅读：18 留言：0更新日期：2018-08-11 14:26

本发明专利技术公开了基于语言模型的GRU‑CRF会议名称识别方法，本方法分为两部分，一部分是基于GRU的语言模型，另一部分是基于GRU‑CRF的识别模型。使用有标注的监督数据训练标注模型GRU‑CRF，得到一个不需要特征工程和领域知识的端到端的识别模型。使用大量无标注数据对LM进行无监督训练，从无监督训练得到的LM中获取字向量作为GRU‑CRF的输入，可以提升监督训练的效果，提高识别模型的泛化能力，使得从少量标语料上训练有较好效果的命名实体识别模型成为可能。实验结果表明，LM‑GRU‑CRF方法在自建语料库上得到了最好的效果，对于其他缺乏标注预料的命名实体识别任务而言，可以使用该方法提高模型的效果。

GRU-CRF conference name recognition method based on language model

The present invention discloses a GRU_CRF conference name recognition method based on language model. The method is divided into two parts, one is a GRU_CRF-based language model, the other is a GRU_CRF-based recognition model. Using the labeled supervisory data to train the labeling model GRU_CRF, an end-to-end recognition model without feature engineering and domain knowledge is obtained. Using a large number of unlabeled data for unsupervised training of LM and getting word vectors from the unsupervised training of LM as input of GRU_CRF can improve the effect of supervised training and generalization ability of recognition model, which makes it possible to train named entity recognition model with better effect from a small number of slogans. The experimental results show that LM_GRU_CRF is the best method in the self-built corpus, and it can be used to improve the performance of the model for other unanticipated named entity recognition tasks.

全部详细技术资料下载

【技术实现步骤摘要】
基于语言模型的GRU-CRF会议名称识别方法
本专利技术属于命名实体识别和深度学习领域，是一种基于语言模型(LanguageModel，LM)的GRU(GatedRecurrentUnit)与条件随机场(ConditionalRandomFields，CRF)结合的命名实体识别方法。这里识别的会议名称是特定领域的命名实体，只有少量标注语料可用，本专利技术主要是为了解决这种只有少量标注语料可用情况下的命名实体识别问题。
技术介绍
命名实体识别是自然语言处理的一项关键任务，在1995年的MUC会议上被第一次引入，目的是识别文本中的特定类型的事物名称和有意义的数量短语，包括命名性实体、时间、数字等三大类，又可细分为七个小类：人名、地名、机构名、时间、日期、货币以及百分比等。作为自然语言处理中的一项基础任务，命名实体识别对于机器翻译、信息的检索与抽取等工作有重要意义。随着时代的发展，命名实体识别的目标早已超出了上述几类的范围，特定领域的命名实体识别需求非常广泛，如电子病历、生物医学等领域，本文的子实验既是在会议名称识别这一特定领域的命名实体上展开的。除了需要识别的实体在不断增加外，命名实体识别方法也在不断进步和完善。传统的命名实体识别多采用基于规则和统计机器学习的方法。最初，命名实体识别采用基于手工制定词典和规则的方法。这些方法大多以语言学专家建立的规则知识库和词典为基础，采用模式匹配或者字符串匹配的方法识别命名实体。对于规律性强的文本，基于规则的方法准确而且高效。但对于规律性不强的文本，规则的编写变得困难，识别效果也相当不理想，所以人们开始将目光投向机器学习的方...

【技术保护点】
1.基于语言模型的GRU‑CRF会议名称识别方法，其特征在于：该方法包括以下步骤，步骤1：对文本进行预处理，消除文本中不合理的字符对和无效字符，并使用语言模型训练字向量，得到字向量，建立向量字典；通过向量字典将输入句子中的每个字映射成固定长度的向量，作为神经网络的输入；步骤2：双向GRU网络作为特征提取层，使用一个前向GRU层和一个后向GRU层对输入的向量进行计算，提取字本身的特征和句子的语境特征，并将两层GRU计算的结果拼接为一个向量，作为输入的特征向量；步骤3：将步骤3的结果通过sigmoid函数进行变换，得到每个字对应标签的概率矩阵；步骤4：CRF层作为标注层，将步骤4的结果作为特征输入到CRF层，经CRF计算和Viterbi解码，并使用softmax进行归一化，得到句子级别的标签序列，该序列是综合了语境特征和标签依赖关系的序列，相较于由GRU单独判定标签的做法来说更合理；通过后处理，找到会议名称的标签，识别出会议名称。

【技术特征摘要】
1.基于语言模型的GRU-CRF会议名称识别方法，其特征在于：该方法包括以下步骤，步骤1：对文本进行预处理，消除文本中不合理的字符对和无效字符，并使用语言模型训练字向量，得到字向量，建立向量字典；通过向量字典将输入句子中的每个字映射成固定长度的向量，作为神经网络的输入；步骤2：双向GRU网络作为特征提取层，使用一个前向GRU层和一个后向GRU层对输入的向量进行计算，提取字本身的特征和句子的语境特征，并将两层GRU计算的结果拼接为一个向量，作为输入的特征向量；步骤3：将步骤3的结果通过sigmoid函数进行变换，得到每个字对应标签的概率矩阵；步骤4：CRF层作为标注层，将步骤4的结果作为特征输入到CRF层，经CRF计算和Viterbi解码，并使用softmax进行归一化，得到句子级别的标签序列，该序列是综合了语境特征和标签依赖关系的序列，相较于由GRU单独判定标签的做法来说更合理；通过后处理，找到会议名称的标签，识别出会议名称。2.根据权利要求1所述的基于语言模型的GRU-CRF会议名称识别方法，其特征在于：第一、构建语料库；步骤1：文本搜集是构建语料库的第一步；本方法搜集的文本来自中国学术会议在线网；这里搜集了会议预告、会议新闻、会议评述、会议回顾的相关材料，一共得到了31.2M的初始文本；步骤2：人工筛选搜集的文本，删除与会议名称无关的段落，并使用结巴分词对文本句子进行切分，形成了初步标识的语料库；步骤3：标注已经处理过的文本，即人工标注会议名称；会议名称有两种，一种是简单会议名称，第二种是结构复杂的会议名称；这里采取的策略是最大化边界，即将最完整的会议名称作为一个标注单位，给予会议标签，完成标注；这样做的优势是可以根据后续实验的具体策略灵活的改变会议名称的标注方式，既能够采用并列结构分别标注的方法，也能够采用整体标注的方法；完成上述步骤后，得到了一个针对会议名称识别的专用语料库，为实验提供了可用的数据集；第二、语言模型训练；针对会议名称识别这类只有少量标注语料可用的任务而言，通过在大量无标注语料上训练语言模型，使用该训练语言模型产...

【专利技术属性】
技术研发人员：王洁，张瑞东，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人