一种融合词性与双向时间卷积网络的中文命名实体识别方法技术

技术编号：38431371 阅读：9 留言：0更新日期：2023-08-11 14:18

本发明专利技术涉及一种融合词性与双向时间卷积网络的中文命名实体识别方法，属于计算机领域。该方法将中文文本序列的实体标注信息与词性标注信息作为输入数据，使用中文预训练语言模型产生对应的词向量，并将实体词向量与词性词向量进行融合得到包含词性特征的输入词向量。融合后使用双向时间卷积网络提取文本前向特征与后向特征，最后结合条件随机场模型输出全局最优序列。实验中对时间卷积网络的三个参数：空洞因子、卷积层数和卷积核数进行参数实验并分析其影响原因。该模型与其他模型相比，能有效提高中文命名时实体识别的准确性。能有效提高中文命名时实体识别的准确性。能有效提高中文命名时实体识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合词性与双向时间卷积网络的中文命名实体识别方法

[0001]本专利技术属于计算机领域，涉及一种融合词性与双向时间卷积网络的中文命名实体识别方法。

技术介绍

[0002]命名实体识别(Named entity recognition,NER)技术旨在从给定的文本中检测命名实体并将其划分为预定义的实体类别，例如人名、地名、时间、机构名或专有名词等。命名实体识别经常作为其他自然语言处理任务的上游基础任务，广泛应用于关系抽取、事件抽取、知识图谱、机器翻译、问答系统等领域，比如在知识图谱的构建中，需要先进行所需信息实体的识别和抽取。
[0003]目前主流的中文命名时实体识别方法主要包括基于规则的词性标注方法、基于统计机器学习的词性标注方法与基于深度学习的词性标注方法。
[0004]命名实体识别首次提出是作为信息提取的一项子任务，在信息理解会议(Message Understanding Conference)中被提出，从此之后便成为了人工智能领域的重要研究内容。传统的命名实体识别通过人工设定规则和字典来实现，但由于规则的编制十分依赖具体的场景，导致该方法存在可移植性较差、难以覆盖多数语言场景等问题。基于统计机器学习的方法迅速发展，如最大熵模型、隐马尔可夫模型、条件随机场模型等，其主要思想是人工预先标注完善的真实语料，针对输入的文本序列中各个不同的字输出不同的标签，即作为序列标注问题来解决。
[0005]命名实体识别任务中，中文数据集相对于英文数据集来说还存在一些固有困难：词语之间没有明显间隔符、词...

【技术保护点】

【技术特征摘要】
1.一种融合词性与双向时间卷积网络的中文命名实体识别方法，其特征在于：该方法为：S1：将中文文本序列的实体标注信息与词性标注信息作为输入数据，使用中文预训练语言模型产生对应的词向量；S2：将实体词向量与词性词向量进行融合，得到包含词性特征的输入词向量；S3：融合后使用主模型双向时间卷积网络提取文本前向特征与后向特征；S4：结合条件随机场模型输出全局最优序列。2.根据权利要求1所述的一种融合词性与双向时间卷积网络的中文命名实体识别方法，其特征在于：所述S1中，使用中文预训练语言模型产生对应的词向量具体为：首先使用XLNet生成词库，再将输入序列通过词库进行向量化操作，然后使用XLNet中文预训练语言模型，实现从双向获取文本特征。3.根据权利要求2所述的一种融合词性与双向时间卷积网络的中文命名实体识别方法，其特征在于：对于所述词库的生成，首先将XLNet预训练语言模型中的所有词语进行遍历，生成vocab词库文件，并将文本词语与vocab词库文件进行索引对应，以生成预训练模型的输入向量，对于词库中不存在的词，使用<unk>代替。4.根据权利要求3所述的一种融合词性与双向时间卷积网络的中文命名实体识别方法，其特征在于：在所述主模型选择方面，选用时间卷积网络作为主模型；时间卷积网络包...

【专利技术属性】
技术研发人员：张鹏，周志强，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人