当前位置: 首页 > 专利查询>内蒙古大学专利>正文

基于神经网络的蒙古文命名实体识别方法及其识别系统技术方案

技术编号:20389913 阅读:25 留言:0更新日期:2019-02-20 02:52
本发明专利技术公开了一种基于神经网络的蒙古文命名实体识别方法及其识别系统,属于自然语言处理技术领域,识别系统包括:Glove工具,双向语言模型组件获取模块,语言模型向量获取模块,BLSTM向量获取模块,注意力机制层,CRF层,最终模型的获取模块。本发明专利技术采用前向和后向层叠神经语言模型BLSTM从大量无标注语料中学习上下文信息,并用注意力机制把学习的上下文信息引入基于BLSTM和CRF的神经网络,提高蒙古文命名实体识别效率,解决了现有技术中存在的问题。

【技术实现步骤摘要】
基于神经网络的蒙古文命名实体识别方法及其识别系统
本专利技术属于自然语言处理
,涉及一种基于神经网络的蒙古文命名实体识别方法及其识别系统。
技术介绍
传统蒙古文是我国内蒙古自治区的主体文字。然而,其在自然语言处理上的研究才刚刚起步,相对于中文和英文等大语种来说,发展相对滞后。命名实体识别是文本中基本的信息单元,主要包括人名、地名、组织机构名等。命名实体识别是机器翻译、问答系统、句法分析、信息抽取、知识图谱等自然语言处理任务的重要基础性工作。在传统蒙古文命名实体识别领域,现有的方法可以分为两类,一类是基于词典和规则的命名实体识别方法,将尽可能多的不同类别的实体词汇收录进词典中,识别时将文本信息与词典中的词语进行匹配,匹配上的就标记为对应的实体类别;或者根据实体词汇的组成规则,例如地名或组织结构名通常包含特定的结尾词,将满足相应规则的词组直接进行标注。另一种是基于统计学习的方法,相关方法有最大熵模型、隐马尔科夫模型、条件随机场,其中条件随机场近年来被广泛运用于蒙古文命名实体识别领域。近年来,人们对中文和英文等大语种广泛展开了基于神经网络的命名实体识别研究,无需大量人工特征,只需要足够的标注语料。中文和英文上使用的模型主要是基于双向长短期记忆网络(BLSTM)和条件随机场(CRF)相结合的架构,但在传统蒙古文这样的小语种上还缺乏相关研究。因为传统蒙古文词法特征以及元音词中词尾变形显现等问题,语料中会出现同型但不同音的问题;甚至有时候因为录入人员方言原因导致同一个单词在语料中的编码序列不一致等问题,上述这些问题使传统蒙古文具有丰富的词形态。基于词典和规则的命名实体识别方法依赖于词典和规则的构造,在处理传统蒙古文文本方面有很大的局限性;基于统计模型的方法依赖于人工特征模板的选取,对于特征模板的选取需要大量人工经验和专业知识,这需要花费大量人力和时间,而且在向新的文本领域进行扩展时,通常不具有适用的迁移性,需要重新构造人工特征模板,这些问题使得基于统计模型的方法已经不能很好的满足人们的要求。近年来,人们对中文和英文等大语种广泛展开了基于神经网络的命名实体识别研究,无需大量人工特征,只需要足够的标注语料。对于基于BLSTM和CRF相结合的神经网络命名实体识别方法,在中文和英文等大语种上展开了广泛的研究,但在传统蒙古文这样的小语种上还缺乏相关研究。在尝试直接移植到传统蒙古文上时,因为可以使用的标注语料,无论在数量和质量上都不如中文和英文。而基于BLSTM和CRF的神经网络方法用于命名实体识别的信息来源主要是标注语料,这使得仅仅把技术移植到传统蒙古文上时存在性能不佳的情况。
技术实现思路
为了解决上述问题,本专利技术提供一种基于神经网络的蒙古文命名实体识别方法,采用前向和后向层叠神经语言模型BLSTM从大量无标注语料中学习上下文信息,并用注意力机制把学习的上下文信息引入基于BLSTM和CRF的神经网络,提高蒙古文命名实体识别效率,解决了现有技术中存在的问题。本专利技术的另一目的是,提供一种基于神经网络的蒙古文命名实体识别识别系统。本专利技术所采用的技术方案是,一种基于神经网络的蒙古文命名实体识别方法,具体按照以下步骤进行,步骤1,从蒙古文新闻网站获取大量无标注文本语料并进行预处理;从无标注文本语料中选取一部分,以人工方式进行命名实体标注,获得标注文本;步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过前向和后向语言模型组件的学习,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算法得到训练集的命名实体标注;步骤7,将步骤6得到的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数,每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,作为最终模型;步骤8,将最终模型中的标注文本替换为需要标注的文本内容,经过步骤4-6的处理,即完成蒙古文命名实体识别。本专利技术的特征在还于,进一步的,所述步骤1中,对无标注文本语料进行预处理,包括对蒙古文文本分句,词干词缀切分和文本格式处理;蒙古文文本分句采用基于正则匹配的方法,对文本中匹配到的蒙古文句号、感叹号的前后未分句做分句处理;词干词缀切分是根据蒙古文的构词规则将蒙古文单词切分成蒙古文词干和蒙古文后缀的形式,对文本进行窄的无中断空格符匹配,在前面加空格进行切分,是一个不显示的字符,是蒙古文词干词缀的边界;文本格式处理是指把无标注语料转写成程序中定义的接收输入形式。进一步的,所述步骤6中,通过注意力机制层将BLSTM向量和语言模型向量结合,具体为:对语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定二者的信息使用量;使用tanh()和σ()对加权和进行二次映射,最终使权重矩阵Z的每个值都到范围[0,1]:Z=σ(Wz(3)tanh(Wz(1)H+Wz(2)M))Y=Z×H+(1-Z)×M其中,tanh()是双曲正切函数;σ()表示Sigmoid函数;Y代表注意力机制层的输出,H代表语言模型向量,M代表BLSTM向量,其中Z、H和M具有相同的尺寸;Wz(1)、Wz(2)和Wz(3)是权重矩阵Z的权重参数,开始时随机初始化,在迭代过程中自动更新。进一步的,所述步骤7中,当模型迭代训练达到预先设置的迭代次数,或者连续10次验证集没有出现更好的预测结果时,结束训练。进一步的,所述步骤1中,从蒙古文新闻网站获取大量无标注文本语料,具体为:对蒙古文新闻网站的新闻页正文进行整合,把获取的蒙科立编码文本进行编码转换,得到国标码utf-8的无标注文本语料。进一步的,所述步骤6中,利用CRF层进行解码,具体为:利用CRF层考虑上下文标记间的转移概率,以序列化形式进行全局参数优化和解码,然后用维特比算法找出输出标签序列,得到文本的命名实体标注。进一步的,所述步骤5中,字符向量的获取方法,具体为:向字符级BLSTM输入训练集中每个单词的字符信息,通过前向LSTM学习,输出前向字符向量;通过后向LSTM学习,输出后向字符向量,把前向字符向量和后向字符向量以拼接的方式组合得到单词对应的字符向量。本专利技术提供的另一技术方案是,一种基于神经网络的蒙古文命名实体识别系统,包括:Glove工具,用于输入经过预处理的无标注文本,输出词频表和对应的词向量;双向语言模型组件获取模块,用于输入经过预处理的无标注文本,训练前向和后向层叠神经语言本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的蒙古文命名实体识别方法,其特征在于,具体按照以下步骤进行,步骤1,获取无标注文本语料并进行预处理;从无标注文本语料中选取一部分,以人工方式进行命名实体标注,获得标注文本;步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过前向和后向语言模型组件的学习,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算法得到训练集的命名实体标注;步骤7,将步骤6得到的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数,每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,作为最终模型;步骤8,将最终模型中的标注文本替换为需要标注的文本内容,经过步骤4‑6的处理,即完成蒙古文命名实体识别。...

【技术特征摘要】
1.一种基于神经网络的蒙古文命名实体识别方法,其特征在于,具体按照以下步骤进行,步骤1,获取无标注文本语料并进行预处理;从无标注文本语料中选取一部分,以人工方式进行命名实体标注,获得标注文本;步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过前向和后向语言模型组件的学习,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算法得到训练集的命名实体标注;步骤7,将步骤6得到的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数,每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,作为最终模型;步骤8,将最终模型中的标注文本替换为需要标注的文本内容,经过步骤4-6的处理,即完成蒙古文命名实体识别。2.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤1中,对无标注文本语料进行预处理,包括对蒙古文文本分句,词干词缀切分和文本格式处理;蒙古文文本分句采用基于正则匹配的方法,对文本中匹配到的蒙古文句号、感叹号的前后未分句做分句处理;词干词缀切分是根据蒙古文的构词规则将蒙古文单词切分成蒙古文词干和蒙古文后缀的形式,对文本进行窄的无中断空格符匹配,在前面加空格进行切分,是一个不显示的字符,是蒙古文词干词缀的边界;文本格式处理是指把无标注语料转写成程序中定义的接收输入形式。3.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤6中,通过注意力机制层将BLSTM向量和语言模型向量结合,具体为:对语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定二者的信息使用量;使用tanh()和σ()对加权和进行二次映射,最终使权重矩阵Z的每个值都到范围[0,1]:Z=σ(Wz(3)tanh(Wz(1)H+Wz(2)M))Y=Z×H+(1-Z)×M其中,tanh()是双曲正切函数;σ()表示Sigmoid函数;Y代表注意力机制层的输出,H代表语言模型向量,M代表BLSTM向量,其中Z、H和M具有相同的尺寸;Wz(1)、Wz(2)和Wz(3)是权重矩阵Z的权重参数,开始时随机初始化,在迭代过程中自动更新。4.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤7中,当模型迭代训...

【专利技术属性】
技术研发人员:苏向东高光来熊玉竹飞龙
申请(专利权)人:内蒙古大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1