【技术实现步骤摘要】
基于神经网络的蒙古文命名实体识别方法及其识别系统
本专利技术属于自然语言处理
,涉及一种基于神经网络的蒙古文命名实体识别方法及其识别系统。
技术介绍
传统蒙古文是我国内蒙古自治区的主体文字。然而,其在自然语言处理上的研究才刚刚起步,相对于中文和英文等大语种来说,发展相对滞后。命名实体识别是文本中基本的信息单元,主要包括人名、地名、组织机构名等。命名实体识别是机器翻译、问答系统、句法分析、信息抽取、知识图谱等自然语言处理任务的重要基础性工作。在传统蒙古文命名实体识别领域,现有的方法可以分为两类,一类是基于词典和规则的命名实体识别方法,将尽可能多的不同类别的实体词汇收录进词典中,识别时将文本信息与词典中的词语进行匹配,匹配上的就标记为对应的实体类别;或者根据实体词汇的组成规则,例如地名或组织结构名通常包含特定的结尾词,将满足相应规则的词组直接进行标注。另一种是基于统计学习的方法,相关方法有最大熵模型、隐马尔科夫模型、条件随机场,其中条件随机场近年来被广泛运用于蒙古文命名实体识别领域。近年来,人们对中文和英文等大语种广泛展开了基于神经网络的命名实体识别研究,无需大量人工特征,只需要足够的标注语料。中文和英文上使用的模型主要是基于双向长短期记忆网络(BLSTM)和条件随机场(CRF)相结合的架构,但在传统蒙古文这样的小语种上还缺乏相关研究。因为传统蒙古文词法特征以及元音词中词尾变形显现等问题,语料中会出现同型但不同音的问题;甚至有时候因为录入人员方言原因导致同一个单词在语料中的编码序列不一致等问题,上述这些问题使传统蒙古文具有丰富的词形态。基于词典和规则的命 ...
【技术保护点】
1.一种基于神经网络的蒙古文命名实体识别方法,其特征在于,具体按照以下步骤进行,步骤1,获取无标注文本语料并进行预处理;从无标注文本语料中选取一部分,以人工方式进行命名实体标注,获得标注文本;步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过前向和后向语言模型组件的学习,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算 ...
【技术特征摘要】
1.一种基于神经网络的蒙古文命名实体识别方法,其特征在于,具体按照以下步骤进行,步骤1,获取无标注文本语料并进行预处理;从无标注文本语料中选取一部分,以人工方式进行命名实体标注,获得标注文本;步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过前向和后向语言模型组件的学习,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算法得到训练集的命名实体标注;步骤7,将步骤6得到的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数,每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,作为最终模型;步骤8,将最终模型中的标注文本替换为需要标注的文本内容,经过步骤4-6的处理,即完成蒙古文命名实体识别。2.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤1中,对无标注文本语料进行预处理,包括对蒙古文文本分句,词干词缀切分和文本格式处理;蒙古文文本分句采用基于正则匹配的方法,对文本中匹配到的蒙古文句号、感叹号的前后未分句做分句处理;词干词缀切分是根据蒙古文的构词规则将蒙古文单词切分成蒙古文词干和蒙古文后缀的形式,对文本进行窄的无中断空格符匹配,在前面加空格进行切分,是一个不显示的字符,是蒙古文词干词缀的边界;文本格式处理是指把无标注语料转写成程序中定义的接收输入形式。3.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤6中,通过注意力机制层将BLSTM向量和语言模型向量结合,具体为:对语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定二者的信息使用量;使用tanh()和σ()对加权和进行二次映射,最终使权重矩阵Z的每个值都到范围[0,1]:Z=σ(Wz(3)tanh(Wz(1)H+Wz(2)M))Y=Z×H+(1-Z)×M其中,tanh()是双曲正切函数;σ()表示Sigmoid函数;Y代表注意力机制层的输出,H代表语言模型向量,M代表BLSTM向量,其中Z、H和M具有相同的尺寸;Wz(1)、Wz(2)和Wz(3)是权重矩阵Z的权重参数,开始时随机初始化,在迭代过程中自动更新。4.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤7中,当模型迭代训...
【专利技术属性】
技术研发人员:苏向东,高光来,熊玉竹,飞龙,
申请(专利权)人:内蒙古大学,
类型:发明
国别省市:内蒙古,15
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。