一种基于深度学习的维吾尔文命名实体识别方法技术

技术编号：19964394 阅读：24 留言：0更新日期：2019-01-03 12:54

本发明专利技术公开了一种基于深度学习的维吾尔文命名实体识别方法，该方法包括如下步骤：(1)对维吾尔文本进行分词，对词分别进行字符提取和音节切分；(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量，并将它们拼接到一起形成词语的音节向量表示；(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来对每个词语的上下文信息进行建模；(5)在LSTM神经网络的输出端，利用条件随机场来对整个句子进行命名实体标注；本发明专利技术由字符，音节及词向量的拼接作为神经网络的输入，提取了词语的丰富结构信息，因此本发明专利技术能在形态丰富语言的序列标注中有广泛应用。

A Uyghur Named Entity Recognition Method Based on Deep Learning

The invention discloses a Uyghur named entity recognition method based on in-depth learning, which comprises the following steps: (1) word segmentation, character extraction and syllable segmentation of words; (2) forward and reverse character vectors are obtained from extracted characters by two-way LSTM network, and they are joined together to form the character vector representation of words; (3) using two-way LSTM network to form the character vector representation of words. The two-way LSTM network obtains the forward and reverse syllable vectors for segmented syllables, and splices them together to form the syllable vector representation of words; (4) splices character vectors, syllable vectors and word vectors and passes them to the two-way LSTM neural network to model the context information of each word; (5) at the output of the LSTM neural network, the conditional random field is used to model the context information of each word. The whole sentence is labeled by named entity; the invention uses the stitching of characters, syllables and word vectors as the input of the neural network to extract rich structural information of words, so the invention can be widely used in sequence labeling of rich languages.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的维吾尔文命名实体识别方法
本专利技术涉及自然语言处理，具体涉及一种基于深度学习的维吾尔文命名实体识别方法。
技术介绍
随着互联网技术的快速发展，有关新疆少数民族语言的搜索引擎、翻译系统有了比较好的发展，但是在维吾尔语命名实体的识别方面，仍然缺少准确率高得命名实体识别方法。命名实体识别作为机器翻译、信息抽取及检索等研究的基础，具有重要的研究意义。目前命名实体识别(NamedEntityRecognition，NER)方法分为三种：基于规则的方法,基于统计的方法以及基于神经网络的方法。基于规则的命名实体识别的基本思路是人工编写上下文敏感的产生式，使用普通的命名实体(NE)数据库，都将不同的权值赋给不同的规则以便在产生规则冲突时可以选择具有最大权值的规则。基于统计的方法将专名识别看作一般模式识别中分类问题的一个特例，利用字标注的方法来进行命名实体识别。其基本步骤包括:特征选择、机器学习、标注、后处理。基于深度学习的方法通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示，需要比较大的数据规模。2011年在NER任务上开始使用神经网络来进行研究。当时研究主要包含了两种网络结构，分别是窗口方法与句子方法来进行NER任务。这两种方法主要区别在于窗口方法仅使用当前预测词的上下文窗口进行输入，再使用传统的神经网络结构；句子方法用整个句子作为当前预测词输入，加入了句子中相对位置特征来区分句子中的每个词，接着使用一层卷积神经网络(CNN)结构。训练时的优化目标函数也分为两种，其一是词级别的对数似然，其二是句子级别的对数似然。201...

【技术保护点】
1.一种基于深度学习的维吾尔文命名实体识别方法，其特征在于，包括如下步骤：S1.对待标注的维吾尔文文本数据进行分句、分词，并对词进行字符提取和音节切分；S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量，并将它们拼接到一起形成词语的音节向量表示；S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征；S5.针对步骤S4中得到的输出，利用条件随机场来对整个句子进行命名实体标注，标记出语句中的命名实体信息。

【技术特征摘要】
1.一种基于深度学习的维吾尔文命名实体识别方法，其特征在于，包括如下步骤：S1.对待标注的维吾尔文文本数据进行分句、分词，并对词进行字符提取和音节切分；S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量，并将它们拼接到一起形成词语的音节向量表示；S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征；S5.针对步骤S4中得到的输出，利用条件随机场来对整个句子进行命名实体标注，标记出语句中的命名实体信息。2.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法，其特征在于,在步骤S1中，进行所述字符提取和音节切分包括以下步骤：S11.采用自然语言处理工具对文本进行句子边界识别和词例化，使得数据集以句子和每句一个token分割来呈现；S12.对步骤S11中得到的句子以及单词进行统计，获取其对应的句表，单词表；S13.将步骤S12中的所述单词表进行字符统计，获取字符表；S14.按照音节进行切分，将步骤S12中的所述单词表中的音节进行统计，形成音节表。3.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法，其特征在于,在步骤S4中，得到所述输入语句的信息特征包括以下步骤：S41.初始化：第t时刻的向量xt由字符级向量音节级向量传统的...

【专利技术属性】
技术研发人员：买合木提·买买提，艾山·吾买尔，吐尔根·依布拉音，王路路，卡哈尔江·阿比的热西提，
申请(专利权)人：新疆大学，
类型：发明
国别省市：新疆,65

全部详细技术资料下载我是这个专利的主人