基于深度学习的中文命名实体识别方法及系统技术方案

技术编号：35309412 阅读：15 留言：0更新日期：2022-10-22 13:00

本发明专利技术公开了基于深度学习的中文命名实体识别方法及系统；方法包括：获取待识别的字符串序列；将待识别的字符串序列中的每个字符均输入到训练后的中文命名实体识别模型中，输出中文命名实体识别结果；训练后的中文命名实体识别模型，工作原理包括：将输入的每个字符进行特征提取得到字符特征；将输入的每个字符进行笔画特征提取得到笔画特征；将每个字符的字符特征与笔画特征进行拼接，得到每个字符的第一拼接特征；将每个字符的第一拼接特征通过自注意力机制的处理，得到处理向量；将处理向量与每个字符中的单词信息进行拼接，得到每个字符的第二拼接特征；将第二拼接特征进行编码处理，得到编码向量；将编码向量进行解码处理，得到字符标签。得到字符标签。得到字符标签。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的中文命名实体识别方法及系统

[0001]本专利技术涉及中文命名实体识别
，特别是涉及基于深度学习的中文命名实体识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。
[0003]自然语言处理(NLP)是计算机科学领域与人工智能领域中研究的一个重要方向，它研究将原始的非结构化的文本数据处理成计算机可识别的二进制语言，该研究涉及自然语言，是一门集语言学、计算机科学和数学于一体的学科。NLP技术主要应用于舆情监测、机器翻译、文本分类、观点提取、自动摘要等场景。而以上应用大都涉及命名实体识别的研究。
[0004]命名实体识别(NER)是NLP领域下的一个子任务，主要研究识别文本里具有特定含义的实体，其中实体主要是指人名、地名、机构名等专有名词。在进行NER实验前，通常需要先对实体分类标注，然后再进行识别。其中，常用的标注方法有两种：BIO和BIOES，其中B代表实体的开头，I代表实体的中间部分，O代表当非实体部分，E代表实体的结尾，S代表单个实体。
[0005]相较于发展成熟的英文命名实体识别，由于中文命名实体识别发展起步较晚及中文本身的复杂性导致中文命名实体识别面临很多挑战：英文单词间有空格作为区分，而中文词汇间没有明确的边界，并且错误划分中文分词会降低整体识别性能；许多英文单词词性可通过前后缀进行判断，而中文词语词性复杂并且存在词性嵌套现象使嵌套实体无法被有效识别。这些问题的存在，也说明了提升中文命名实体识别任务的必要...

【技术保护点】

【技术特征摘要】
1.基于深度学习的中文命名实体识别方法，其特征是，包括：获取待识别的字符串序列；将待识别的字符串序列中的每个字符均输入到训练后的中文命名实体识别模型中，输出中文命名实体识别结果；其中，训练后的中文命名实体识别模型，工作原理包括：将输入的每个字符进行特征提取得到字符特征；将输入的每个字符进行笔画特征提取得到笔画特征；将每个字符的字符特征与笔画特征进行拼接，得到每个字符的第一拼接特征；将每个字符的第一拼接特征通过自注意力机制的处理，得到处理向量；将处理向量与每个字符中的单词信息进行拼接，得到每个字符的第二拼接特征；将第二拼接特征进行编码处理，得到编码向量；将编码向量进行解码处理，得到字符标签。2.如权利要求1所述的基于深度学习的中文命名实体识别方法，其特征是，所述训练后的中文命名实体识别模型，其网络结构包括：并列的卷积神经网络CNN和第一双向长短时记忆网络Bi
‑
LSTM；所述卷积神经网络CNN的输出端与第一拼接单元的输入端连接；所述第一双向长短时记忆网络Bi
‑
LSTM的输出端与第一拼接单元的输入端连接；所述第一拼接单元的输出端与自注意力机制层的输入端连接；所述自注意力机制层额输出端和卷积神经网络的输入端均与第二拼接单元的输入端连接；所述第二拼接单元的输出端与第二双向长短时记忆网络的输入端连接；所述第二双向长短时记忆网络的输出端与条件随机场模型CRF的输入端连接；条件随机场模型CRF的输出端与输出层连接。3.如权利要求1所述的基于深度学习的中文命名实体识别方法，其特征是，所述训练后的中文命名实体识别模型，其训练过程包括：构建训练集；所述训练集为已知中文命名实体识别标签的字符串序列；将训练集，输入到中文命名实体识别模型中，对中文命名实体识别模型进行训练，得到训练后的中文命名实体识别模型。4.如权利要求1所述的基于深度学习的中文命名实体识别方法，其特征是，所述将输入的每个字符进行特征提取得到字符特征；具体包括：将输入的每个字符采用卷积神经网络CNN进行特征提取，得到字符特征。5.如权利要求1所述的基于深度学习的中文命名实体识别方法，其特征是，所述将输入的每个字符进行笔画特征提取得到笔画特征；具体包括：采用笔画工具，获取每个字符的笔画信息；将每个字符的笔画信息通过第一双向长短时记忆网络Bi
‑
LSTM处理，...

【专利技术属性】
技术研发人员：徐卫志，钟诚，陆佃杰，张桂娟，于惠，龙开放，孙胤泰，张晓冉，李瑞琪，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人