一种基于神经网络的中文命名实体识别方法技术

技术编号:20866683 阅读:24 留言:0更新日期:2019-04-17 09:23
本发明专利技术公开了一种基于神经网络的中文命名实体识别方法,采用机器学习方面的算法并且结合神经网络模型,对文本进行分析和命名实体识别。将中文文本中出现的每一个字都构建特征向量,其特征包括位置特征和字符特征。然后把这组句子所对应的特征向量作为神经网络模型的输入,经过Bi‑LSTM以及CRF层后将结果映射到相应的实体标签,完成实体识别任务。该方法仅需要训练文本以及输入语句就可以完成实体识别,是一种灵活方便的方法。

【技术实现步骤摘要】
一种基于神经网络的中文命名实体识别方法
本专利技术涉及中文语言处理和识别
,具体是一种基于神经网络的中文命名实体识别方法。
技术介绍
随着网络市场的蓬勃发展与Web技术的不断演进,互联网逐步迈向基于知识互联的“Web3.0”时代。传统的基于关键字的信息检索方式已经难以满足用户全面快速获取信息和知识资源的需求。命名实体识别作为信息抽取的重要基础任务,自动化地从自然语言中识别相关实体。从而为知识图谱的三元组构建提供基础,使得为用户提供更加智能的信息检索方式成为可能。同时,也对一些计算机的研究方向提供帮助,包括情感分析、智能问答、语义搜索等。在中文实体领域中,基于深度学习的命名实体识别技术主要将识别任务转化为序列标记任务。其中,基于字符的方法和基于词的方法是两种主流的处理方法。基于词的方法受到分词结果的影响,中文分词器产生的错误信息直接带入到命名实体识别的神经网络中去。基于字符的方法未能考虑词的影响,实际上提供词边界信息能够有效提升识别率。因此,本专利技术旨在提供一种基于深度学习并综合利用字符和词特征的方法,从而提高中文命名实体的识别率。
技术实现思路
本专利技术的目的在于克服现有技术的不足,而提供一种基于神经网络的中文命名实体识别方法,该方法对比现有技术可以通过训练出一组位置特征向量提高中文命名实体的识别率,对于整个识别任务能够灵活计算每次输入的文本,不受文本形式限制,容易实现,并且开发和运行成本较低,通过一台服务器便可实现中文实体识别服务,判断的速度和准确率也较高。实现本专利技术目的的技术方案是:一种基于神经网络的中文命名实体识别方法,是利用标签方法标记字符的位置信息并使用神经网络学习特征向量,再使用神经网络模型识别命名实体,包括如下步骤:1)对训练集的字符预处理:1-1)将训练集的文本进行文字分割,使字与字之间分开;1-2)将分开的字转换成字典,每个字都有对应的数字ID;1-3)将训练集的句子每个字都转换成相应的字典ID,得到句子向量;2)获取字符位置标签:2-1)将训练集文本中的每一段句子进行全模式的词分割,为每个句子构建词组集合;2-2)将词组集合中每个词的字符用标签进行位置标记,得到词组标签;2-3)对训练集文本中的每一段句子进行精确模式的词分割,使用标签标记分割位置,得到句子标签;2-4)将步骤2-2)得到的词组标签和步骤2-3)得到的句子标签进行比对,根据标签的异同生成连接点标记序列;2-5)将步骤2-2)得到的词组标签进行两两比对,根据标签的异同生成歧义点标记序列;2-6)每个标签对应有数字ID,将步骤2-4)和步骤2-5)的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量;3)训练中文命名实体识别模型:3-1)将步骤2-6)得到的位置标签向量置入全连接神经网络的Embedding层进行编码;3-2)将步骤3-1)处理得到的数据置入全连接层,完成特征训练;3-3)将步骤1-3)得到的句子向量送入循环神经网络的Embedding层进行编码;3-4)接收来自步骤3-2)和步骤3-3)的处理数据,将其拼接并置入Bi-LSTM层完成双向长短记忆特征训练;经过反复timestep后的训练得到一组数据权重;3-5)将经过步骤3-4)得到的数据权重送到CRF层对数据进行约束和解码,提高分类精度;3-6)重复进行上述步骤将模型训练到精确度最高的情况,得到中文实体识别模型。步骤3-6)中,所述的中文实体识别模型,输出的标签文本为B-PER,I-PER,E-PER,B-ORG,I-ORG,E-ORG,B-LOC,I-LOC,E-LOC,O的形式,分别代表人名开始符号,人名后缀符号,人名结束符号,组织名开始符号,组织名后缀符号,组织名结束符号,地名开始符号,地名后缀符号,地名结束符号和非实体。本专利技术提供的一种基于神经网络的中文命名实体识别方法,将输入文本转化为命名实体标签,将需要识别的文本输入到训练完成的中文实体识别模型,模型便会将文本转化为相应的标签文本,然后根据打上的标签在文本勾勒出实体。该方法不受文本形式限制,容易实现,并且开发和运行成本较低,通过一台服务器便可实现中文实体识别服务,判断的速度和准确率也较高,可以帮助很多相关文本识别方面的产品开发,例如知识图谱构建,智能识别,语义网研究等。附图说明图1为特征向量的构建流程图;图2为中文命名实体识别主结构模型图。具体实施方式下面结合附图和实例对本专利技术做进一步阐述,但不是对本专利技术的限定。一种基于神经网络的中文命名实体识别方法,是利用标签方法标记字符的位置信息并使用神经网络学习特征向量,再使用神经网络模型识别命名实体,包括如下步骤:1)对训练集的字符预处理:1-1)将训练集的文本进行文字分割,使字与字之间分开;1-2)将分开的字转换成字典,每个字都有对应的数字ID;1-3)将训练集的句子每个字都转换成相应的字典ID,得到句子向量;2)获取字符位置标签:2-1)将训练集文本中的每一段句子进行全模式的词分割,为每个句子构建词组集合;2-2)将词组集合中每个词的字符用标签进行位置标记,得到词组标签;2-3)对训练集文本中的每一段句子进行精确模式的词分割,使用标签标记分割位置,得到句子标签;2-4)将步骤2-2)得到的词组标签和步骤2-3)得到的句子标签进行比对,根据标签的异同生成连接点标记序列;2-5)将步骤2-2)得到的词组标签进行两两比对,根据标签的异同生成歧义点标记序列;2-6)每个标签对应有数字ID,将步骤2-4)和步骤2-5)的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量;3)训练中文命名实体识别模型:3-1)将步骤2-6)得到的位置标签向量置入全连接神经网络的Embedding层进行编码;3-2)将步骤3-1)处理得到的数据置入全连接层,完成特征训练;3-3)将步骤1-3)得到的句子向量送入循环神经网络的Embedding层进行编码;3-4)接收来自步骤3-2)和步骤3-3)的处理数据,将其拼接并置入Bi-LSTM层完成双向长短记忆特征训练;经过反复timestep后的训练得到一组数据权重;3-5)将经过步骤3-4)得到的数据权重送到CRF层对数据进行约束和解码,提高分类精度;3-6)重复进行上述步骤将模型训练到精确度最高的情况,得到中文实体识别模型。步骤3-6)中,所述的中文实体识别模型,输出的标签文本为B-PER,I-PER,E-PER,B-ORG,I-ORG,E-ORG,B-LOC,I-LOC,E-LOC,O的形式,分别代表人名开始符号,人名后缀符号,人名结束符号,组织名开始符号,组织名后缀符号,组织名结束符号,地名开始符号,地名后缀符号,地名结束符号和非实体。实施例:1)对训练集的字符预处理:训练集预处理的目的是为了将计算机无法识别的中文语言转化成数学向量,使得计算机可以对这些向量进行精确的神经网络运算。构建神经网络的首要步骤是对训练文本进行预处理,将此模型的训练语料中的每个字都进行分割。例如“德国总理高克访问中国”,对于这段语句必须要处理成“德B-ORG国I-ORG总O理O高B-PER克I-PER访O问P中B-ORG国I-ORG”形式的训练文本,将其每个字都分割开,并对每个字都打上相应的标签。在相应训练文本的基础上需要构建本文档来自技高网...

【技术保护点】
1.一种基于神经网络的中文命名实体识别方法,其特征在于,是利用标签方法标记字符的位置信息并使用神经网络学习特征向量,再使用神经网络模型识别命名实体,包括如下步骤:1)对训练集的字符预处理:1‑1)将训练集的文本进行文字分割,使字与字之间分开;1‑2)将分开的字转换成字典,每个字都有对应的数字ID;1‑3)将训练集的句子每个字都转换成相应的字典ID,得到句子向量;2)获取字符位置标签:2‑1)将训练集文本中的每一段句子进行全模式的词分割,为每个句子构建词组集合;2‑2)将词组集合中每个词的字符用标签进行位置标记,得到词组标签;2‑3)对训练集文本中的每一段句子进行精确模式的词分割,使用标签标记分割位置,得到句子标签;2‑4)将步骤2‑2)得到的词组标签和步骤2‑3)得到的句子标签进行比对,根据标签的异同生成连接点标记序列;2‑5)将步骤2‑2)得到的词组标签进行两两比对,根据标签的异同生成歧义点标记序列;2‑6)每个标签对应有数字ID,将步骤2‑4)和步骤2‑5)的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量;3)训练中文命名实体识别模型:3‑1)将步骤2‑6)得到的位置标签向量置入全连接神经网络的Embedding层进行编码;3‑2)将步骤3‑1)处理得到的数据置入全连接层,完成特征训练;3‑3)将步骤1‑3)得到的句子向量送入循环神经网络的Embedding层进行编码;3‑4)接收来自步骤3‑2)和步骤3‑3)的处理数据,将其拼接并置入Bi‑LSTM层完成双向长短记忆特征训练;经过反复timestep后的训练得到一组数据权重;3‑5)将经过步骤3‑4)得到的数据权重送到CRF层对数据进行约束和解码,提高分类精度;3‑6)重复进行上述步骤将模型训练到精确度最高的情况,得到中文实体识别模型。...

【技术特征摘要】
1.一种基于神经网络的中文命名实体识别方法,其特征在于,是利用标签方法标记字符的位置信息并使用神经网络学习特征向量,再使用神经网络模型识别命名实体,包括如下步骤:1)对训练集的字符预处理:1-1)将训练集的文本进行文字分割,使字与字之间分开;1-2)将分开的字转换成字典,每个字都有对应的数字ID;1-3)将训练集的句子每个字都转换成相应的字典ID,得到句子向量;2)获取字符位置标签:2-1)将训练集文本中的每一段句子进行全模式的词分割,为每个句子构建词组集合;2-2)将词组集合中每个词的字符用标签进行位置标记,得到词组标签;2-3)对训练集文本中的每一段句子进行精确模式的词分割,使用标签标记分割位置,得到句子标签;2-4)将步骤2-2)得到的词组标签和步骤2-3)得到的句子标签进行比对,根据标签的异同生成连接点标记序列;2-5)将步骤2-2)得到的词组标签进行两两比对,根据标签的异同生成歧义点标记序列;2-6)每个标签对应有数字ID,将步骤2-4)和步骤2-5)的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量;3)训练中文命名实体识别模...

【专利技术属性】
技术研发人员:姜超豪钟艳如赵蕾先杨兵李一媛罗笑南
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1