当前位置: 首页 > 专利查询>新疆大学专利>正文

一种基于深度学习的维吾尔文命名实体识别方法技术

技术编号:19964394 阅读:24 留言:0更新日期:2019-01-03 12:54
本发明专利技术公开了一种基于深度学习的维吾尔文命名实体识别方法,该方法包括如下步骤:(1)对维吾尔文本进行分词,对词分别进行字符提取和音节切分;(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来对每个词语的上下文信息进行建模;(5)在LSTM神经网络的输出端,利用条件随机场来对整个句子进行命名实体标注;本发明专利技术由字符,音节及词向量的拼接作为神经网络的输入,提取了词语的丰富结构信息,因此本发明专利技术能在形态丰富语言的序列标注中有广泛应用。

A Uyghur Named Entity Recognition Method Based on Deep Learning

The invention discloses a Uyghur named entity recognition method based on in-depth learning, which comprises the following steps: (1) word segmentation, character extraction and syllable segmentation of words; (2) forward and reverse character vectors are obtained from extracted characters by two-way LSTM network, and they are joined together to form the character vector representation of words; (3) using two-way LSTM network to form the character vector representation of words. The two-way LSTM network obtains the forward and reverse syllable vectors for segmented syllables, and splices them together to form the syllable vector representation of words; (4) splices character vectors, syllable vectors and word vectors and passes them to the two-way LSTM neural network to model the context information of each word; (5) at the output of the LSTM neural network, the conditional random field is used to model the context information of each word. The whole sentence is labeled by named entity; the invention uses the stitching of characters, syllables and word vectors as the input of the neural network to extract rich structural information of words, so the invention can be widely used in sequence labeling of rich languages.

【技术实现步骤摘要】
一种基于深度学习的维吾尔文命名实体识别方法
本专利技术涉及自然语言处理,具体涉及一种基于深度学习的维吾尔文命名实体识别方法。
技术介绍
随着互联网技术的快速发展,有关新疆少数民族语言的搜索引擎、翻译系统有了比较好的发展,但是在维吾尔语命名实体的识别方面,仍然缺少准确率高得命名实体识别方法。命名实体识别作为机器翻译、信息抽取及检索等研究的基础,具有重要的研究意义。目前命名实体识别(NamedEntityRecognition,NER)方法分为三种:基于规则的方法,基于统计的方法以及基于神经网络的方法。基于规则的命名实体识别的基本思路是人工编写上下文敏感的产生式,使用普通的命名实体(NE)数据库,都将不同的权值赋给不同的规则以便在产生规则冲突时可以选择具有最大权值的规则。基于统计的方法将专名识别看作一般模式识别中分类问题的一个特例,利用字标注的方法来进行命名实体识别。其基本步骤包括:特征选择、机器学习、标注、后处理。基于深度学习的方法通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,需要比较大的数据规模。2011年在NER任务上开始使用神经网络来进行研究。当时研究主要包含了两种网络结构,分别是窗口方法与句子方法来进行NER任务。这两种方法主要区别在于窗口方法仅使用当前预测词的上下文窗口进行输入,再使用传统的神经网络结构;句子方法用整个句子作为当前预测词输入,加入了句子中相对位置特征来区分句子中的每个词,接着使用一层卷积神经网络(CNN)结构。训练时的优化目标函数也分为两种,其一是词级别的对数似然,其二是句子级别的对数似然。2015年左右关于NER的工作大多使用的是循环神经网络与条件随机场相结合的(RNN+CRF)结构进行研究,这里的RNN一般使用长短期记忆神经网络(LSTM)或GRU,它主要有Embedding层(主要有词向量,字符相量以及一些额外特征),双向RNN层,tanh隐层以及最后的CRF层构成。其效果已经达到或者超过了基于丰富特征的CRF模型,已成为目前基于深度学习的NER方法中的最主流模型。这种模型在特征方面,无需额外的特征工程,仅使用词向量或字符相量就可以达到很好的效果。维吾尔语命名实体识别具有独特的词法、语言特点,直接套用英语和汉语的方法并不合适。目前维吾尔文命名实体识别研究相比于英文、中文的研究较少。国内有关维吾尔文命名实体识别主要集中在人名,时间表达式方面,也有基于规则的机构名、地名方面的研究。但是还没有基于深度学习的识别率比较高的识别方法出现,仍然无法满足应用需求。除此之外,汉语和英语命名实体识别最好的系统都使用字符级别的词语表示,但是根据维吾尔语词语的构词特点,词干和词缀往往是多余一个字符构成并且它们的前后连接具有一定的规律性,特别在命名实体上这些特点更加明显,因此可以通过音节向量来表示词语能够获取更丰富的词法信息,我们提出的基于深度学习的方法可以有效缓解维吾尔语命名实体识别中的词缀复杂等未登录词问题,提高了识别率。
技术实现思路
本专利技术的目的是为了对维吾尔文文本中的命名实体(人名,地名,机构名)进行检测并进行标注,以得到有效的识别性能,提出一种双向LSTM神经网络的输入由字符向量、音节向量和词语向量拼接组成的基于深度学习的维吾尔文命名实体识别方法。基于深度学习的维吾尔文命名实体识别方法,包括如下步骤:包括如下步骤:S1.对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;S5.针对步骤S4中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息;进一步的,在步骤S1中,进行所述字符提取和音节切分包括以下步骤:S11.采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;S12.对步骤S11中得到的句子以及单词进行统计,获取其对应的句表,单词表;S13.将步骤S12中的所述单词表进行字符统计,获取字符表;S14.按照音节进行切分,将步骤S12中的所述单词表中的音节进行统计,形成音节表;进一步的,在步骤S4中,得到所述输入语句的信息特征包括以下步骤:S41.初始化:第t时刻的向量xt由字符级向量音节级向量传统的词嵌入组成,如以下公式:其中,xt∈Rn为时刻t输入拼接向量,ht隐藏层的向量,W*为不同状态下对于输入xt的权重矩阵,U*为隐藏层状态层ht的权重矩阵,b*为偏置向量;S42.遗忘门:决定上一时刻的单元状态ct-1丢弃了哪些信息,遗留哪些信息保留到当前时刻ct的单元状态,其计算公式如下:ft=σ(Wfxt+Ufht-1+bf);S43.输入门:确定哪些新信息被保存在的单元状态ct中;首先,使用sigmoid激活函数确定哪些信息被更新;然后,用tanh正切函数描述当前输入的单元状态接着,更新当前时刻的单元状态ct;其计算公式如下:it=σ(Wixt+Uiht-1+bi);S44.输出门;确定LSTM最终的输出值;首先利用sigmoid层确定细胞状态的输出,然后使用tanh层确定最终的输出,是由输出门和单元状态来共同确定;其计算公式如下:ot=σ(Woxt+Uoht-1+bo);ht=ot·tanh(ct);S45.基于以上步骤,利用反向传播层获取未来信息;S46.两个隐藏层信息通过级联获取最后的输出向量。进一步的,,在步骤S5中,标记出语句中的命名实体信息的具体步骤为:S51.对于给定的观察序列X,计算所有可能的标记序列y上的条件概率p(y|x);S52.极大化训练数据的对数似然函数来求模型参数;S53.在标记序列中找到条件概率最高的y来对序列进行标注。本专利技术的有益效果是:与现有技术相比,针对维吾尔语命名实体识别,本专利技术技术方案使用一种基于音节表示的长短时记忆神经网络构造方法。其主要是采用基于端到端的序列化标注模型,使用双向LSTM对每个单词学习字符级向量、音节级向量,然后将字符级向量、音节向量和词向量结合起来,拼接成一个加强向量,输入到双向LSTM网络对命名实体识别进行建模,最后LSTM模型的输出标签序列输入到条件随机场中(CRF)进行解码。本专利技术不仅能够摒弃人工获取特征,而且应用场景广泛,能够解决不同领域的命名实体标注问题。附图说明图1是基于深度学习的维吾尔文命名实体识别的关键步骤流程图。图2是获取音节向量表示的双向LSTM神经网络实例示意图。图3是基于BI-LSTM-CRF的命名实体识别的实例示意图。具体实施方式如图所示,本实施例的基于深度学习的维吾尔文命名实体识别方法,包括如下步骤:(1)对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;(3)用双向LSTM网络对切分的音节分别获得前向和反向本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的维吾尔文命名实体识别方法,其特征在于,包括如下步骤:S1.对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;S5.针对步骤S4中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。

【技术特征摘要】
1.一种基于深度学习的维吾尔文命名实体识别方法,其特征在于,包括如下步骤:S1.对待标注的维吾尔文文本数据进行分句、分词,并对词进行字符提取和音节切分;S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量,并将它们拼接到一起形成词语的字符向量表示;S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量,并将它们拼接到一起形成词语的音节向量表示;S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征;S5.针对步骤S4中得到的输出,利用条件随机场来对整个句子进行命名实体标注,标记出语句中的命名实体信息。2.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S1中,进行所述字符提取和音节切分包括以下步骤:S11.采用自然语言处理工具对文本进行句子边界识别和词例化,使得数据集以句子和每句一个token分割来呈现;S12.对步骤S11中得到的句子以及单词进行统计,获取其对应的句表,单词表;S13.将步骤S12中的所述单词表进行字符统计,获取字符表;S14.按照音节进行切分,将步骤S12中的所述单词表中的音节进行统计,形成音节表。3.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法,其特征在于,在步骤S4中,得到所述输入语句的信息特征包括以下步骤:S41.初始化:第t时刻的向量xt由字符级向量音节级向量传统的...

【专利技术属性】
技术研发人员:买合木提·买买提艾山·吾买尔吐尔根·依布拉音王路路卡哈尔江·阿比的热西提
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1