一种基于神经网络的中文命名实体识别方法技术

技术编号：20866683 阅读：24 留言：0更新日期：2019-04-17 09:23

本发明专利技术公开了一种基于神经网络的中文命名实体识别方法，采用机器学习方面的算法并且结合神经网络模型，对文本进行分析和命名实体识别。将中文文本中出现的每一个字都构建特征向量，其特征包括位置特征和字符特征。然后把这组句子所对应的特征向量作为神经网络模型的输入，经过Bi‑LSTM以及CRF层后将结果映射到相应的实体标签，完成实体识别任务。该方法仅需要训练文本以及输入语句就可以完成实体识别，是一种灵活方便的方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的中文命名实体识别方法
本专利技术涉及中文语言处理和识别
，具体是一种基于神经网络的中文命名实体识别方法。
技术介绍
随着网络市场的蓬勃发展与Web技术的不断演进，互联网逐步迈向基于知识互联的“Web3.0”时代。传统的基于关键字的信息检索方式已经难以满足用户全面快速获取信息和知识资源的需求。命名实体识别作为信息抽取的重要基础任务，自动化地从自然语言中识别相关实体。从而为知识图谱的三元组构建提供基础，使得为用户提供更加智能的信息检索方式成为可能。同时，也对一些计算机的研究方向提供帮助，包括情感分析、智能问答、语义搜索等。在中文实体领域中，基于深度学习的命名实体识别技术主要将识别任务转化为序列标记任务。其中，基于字符的方法和基于词的方法是两种主流的处理方法。基于词的方法受到分词结果的影响，中文分词器产生的错误信息直接带入到命名实体识别的神经网络中去。基于字符的方法未能考虑词的影响，实际上提供词边界信息能够有效提升识别率。因此，本专利技术旨在提供一种基于深度学习并综合利用字符和词特征的方法，从而提高中文命名实体的识别率。
技术实现思路
本专利技术的目的在于克服现有技术的不足，而提供一种基于神经网络的中文命名实体识别方法，该方法对比现有技术可以通过训练出一组位置特征向量提高中文命名实体的识别率，对于整个识别任务能够灵活计算每次输入的文本，不受文本形式限制，容易实现，并且开发和运行成本较低，通过一台服务器便可实现中文实体识别服务，判断的速度和准确率也较高。实现本专利技术目的的技术方案是：一种基于神经网络的中文命名实体识别方法，是利用标签方法标记字...

【技术保护点】
1.一种基于神经网络的中文命名实体识别方法，其特征在于，是利用标签方法标记字符的位置信息并使用神经网络学习特征向量，再使用神经网络模型识别命名实体，包括如下步骤：1）对训练集的字符预处理：1‑1）将训练集的文本进行文字分割，使字与字之间分开；1‑2）将分开的字转换成字典，每个字都有对应的数字ID；1‑3）将训练集的句子每个字都转换成相应的字典ID，得到句子向量；2）获取字符位置标签：2‑1）将训练集文本中的每一段句子进行全模式的词分割，为每个句子构建词组集合；2‑2）将词组集合中每个词的字符用标签进行位置标记，得到词组标签；2‑3）对训练集文本中的每一段句子进行精确模式的词分割，使用标签标记分割位置，得到句子标签；2‑4）将步骤2‑2）得到的词组标签和步骤2‑3）得到的句子标签进行比对，根据标签的异同生成连接点标记序列；2‑5）将步骤2‑2）得到的词组标签进行两两比对，根据标签的异同生成歧义点标记序列；2‑6）每个标签对应有数字ID，将步骤2‑4）和步骤2‑5）的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量；3）训练中文命名实体识别模型：3‑1）将步骤2‑6）得到的位置标...

【技术特征摘要】
1.一种基于神经网络的中文命名实体识别方法，其特征在于，是利用标签方法标记字符的位置信息并使用神经网络学习特征向量，再使用神经网络模型识别命名实体，包括如下步骤：1）对训练集的字符预处理：1-1）将训练集的文本进行文字分割，使字与字之间分开；1-2）将分开的字转换成字典，每个字都有对应的数字ID；1-3）将训练集的句子每个字都转换成相应的字典ID，得到句子向量；2）获取字符位置标签：2-1）将训练集文本中的每一段句子进行全模式的词分割，为每个句子构建词组集合；2-2）将词组集合中每个词的字符用标签进行位置标记，得到词组标签；2-3）对训练集文本中的每一段句子进行精确模式的词分割，使用标签标记分割位置，得到句子标签；2-4）将步骤2-2）得到的词组标签和步骤2-3）得到的句子标签进行比对，根据标签的异同生成连接点标记序列；2-5）将步骤2-2）得到的词组标签进行两两比对，根据标签的异同生成歧义点标记序列；2-6）每个标签对应有数字ID，将步骤2-4）和步骤2-5）的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量；3）训练中文命名实体识别模...

【专利技术属性】
技术研发人员：姜超豪，钟艳如，赵蕾先，杨兵，李一媛，罗笑南，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人