当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于深度神经网络的法语命名实体识别方法技术

技术编号:21343668 阅读:62 留言:0更新日期:2019-06-13 22:31
本发明专利技术公开了一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC‑fr;步骤2:获取法语新闻文本,训练法语词向量,得到词‑词向量集;步骤3:使用标注的法语命名实体识别语料,得到词‑字符向量集和词‑语法向量集;步骤4:将语料划分为测试集和训练集,形成对应的三维向量;步骤5:对神经网络模型进行训练;步骤6:对测试集进行命名实体识别;本发明专利技术充分考虑法语单词的语义特征,构建的神经网络对单词的形态结构特征敏感,可兼顾上下文信息,针对性强,识别准确率高。

A French Named Entity Recognition Method Based on Deep Neural Network

The invention discloses a method for French named entity recognition based on deep neural network, which includes the following steps: step 1: constructing a neural network model CGC_fr based on deep neural network for French named entity recognition; step 2: acquiring French news text, training French word vectors, and obtaining word_word vector set; step 3: using annotated French named entity recognition language Material, get the word character vector set and word grammar vector set; Step 4: divide the corpus into test set and training set to form corresponding three-dimensional vector; Step 5: train the neural network model; Step 6: recognize the named entity of the test set; The present invention fully considers the semantic characteristics of French words, and constructs a neural network sensitive to the morphological and structural characteristics of words. Context information can be taken into account, with strong pertinence and high recognition accuracy.

【技术实现步骤摘要】
一种基于深度神经网络的法语命名实体识别方法
本专利技术涉及法语命名实体识别
,具体涉及一种基于深度神经网络的法语命名实体识别方法。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是指在文本识别出特定类型事务名称或符号的过程;这些类型通常是预先定义的,常见命名实体类型有三大类:人名、机构名、地名,除此之外还有七小类;它是自然语言处理的一个基础任务,从文本中提取出可能更具有意义的人名、组织名、地名等,使得后续的自然语言处理任务能根据抽取得到的命名实体进一步处理获取需要的信息;在其之上还有命名实体链接、实体关系提取、时间抽取等多种任务依赖于它;有一些相对复杂的任务例如话题检测、文本摘要、机器翻译等将命名实体识别作为中间环节用于提升效果。随着全球化发展,各国之间信息交换日益频繁,外语的舆情文本信息逐渐增多,相比于中文,外语信息更能影响其他国家对中国的看法,而了解这些信息非常重要;法语在非英语的语种中影响力相对较大,其文本是多种舆情分析中的重要目标之一;在舆情文本分析中,命名实体识别是文本分析的基础任务,重要性不可忽视;在命名实体识别的领域,英文方面的研究本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的法语命名实体识别方法,其特征在于,包括以下步骤:步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC‑fr;CGC‑fr包括文本特征层、上下文特征层和CRF层;文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;步骤2:获取法语新闻文本,训练法语词向量,得到词‑词向量集;步...

【技术特征摘要】
1.一种基于深度神经网络的法语命名实体识别方法,其特征在于,包括以下步骤:步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;CGC-fr包括文本特征层、上下文特征层和CRF层;文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。2.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤1中的特征向量表示为:r=[rword,rchar,rsem],其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,rsem为语法特征;其中:式中:为词汇表中第n个词的词嵌入,为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小;rchar提取过程如下:给定一个法语单词w,表示为字符嵌入序列,将上述字符嵌入序列作为CNN的输入,定义F个卷积核,将每个卷积核以滑动窗口在字符嵌入序列上滑动,得到一系列字符嵌入的子序列;将字符嵌入的子序列通过池化得到全局字符特征rchar。3.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤1中上下文特征层得到的网络输出序列过程如下:根据特征序列{r1,r2,…,rN},t时刻的输入为xt,经过正向RGU网络得到反向RGU网络得到其计算过程如下:zt=sigm(Wzxt+Uzht-...

【专利技术属性】
技术研发人员:王文贤唐瑞陈兴蜀严红王海舟
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1