一种改进的命名实体识别方法技术

技术编号：29047165 阅读：23 留言：0更新日期：2021-06-26 06:04

本发明专利技术公开了一种改进的命名实体识别方法，首先提出不再使用偏旁部首或者笔画等方式对字进行字形的获取，而是将字转化为图片的形式，转变为图像处理，可以从更形象的角度更充分的捕捉汉字的字形特征。通过将形成的图像通过预训练模型，快速地得到结果，一定程度上解决了汉字训练数据少的问题。将拼音不作为一整块进行编码，而是将拼音按发音成分拆封成声母、韵母、声调来进行编码，一定程度上更好地捕捉了汉字的字音特征。本发明专利技术通过将albert中在命名实体识别任务中重要的四层进行了选择与拼接，实现了对albert模型的微调，提高了模型性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的命名实体识别方法

[0001]本专利技术属于自然语言生成领域，尤其涉及信息抽取中命名实体识别的相关方法。

技术介绍

[0002]近年来，互联网的快速发展，信息社会建设的日渐加速，给各行业现代化体系系统提出了更高的要求，相关电子文本作为各行业信息化系统建设的一部分，其数量与日渐增。如何通过技术手段提取电子文本中包含的一些关键信息,应用于各行业信息化、辅助决策等方面具有重要的研究价值。随着信息技术的发展，基于自然语言处理的命名实体识别成为学术界的研究热点。
[0003]在命名实体识别领域，经历了一个演变过程，早期的命名实体方法基于语言学家手工设定规则模版来进行模式匹配，从而对实体种类进行分类，1994年Friedman等研发的MedLEE利用词汇和语法等规则和医疗词典进行命名实体识别任务，后来随着机器学习领域的发展，机器学习的各种方法开始应用于命名实体识别领域，传统机器学习方法主要应用马尔可夫模型和条件随机场，通常用一个节点表示一个或一组随机变量，节点之间的边表示变量间的概率关系。crf可以为任何HMM能够建模的事物建模，可以定义更加广泛的特征集，可以有任意权重值，得到了提升。随着深度学习的进一步发展，开始有学者将rnn结构应用于命名实体识别领域，Zhiheng Huang、Wei Xu、Kai Yu等人提出了用于序列标注的双向lstm
‑
crf模型，在首次将bilstm
‑
crf模型用于序列标注任务并取得了最优结果。拉开了命名实体识别深度学习时代的序幕。近年来命名实...

【技术保护点】

【技术特征摘要】
1.一种改进的命名实体识别方法，其特征在于：包括以下步骤：步骤1:获取相关需要进行命名实体识别的文本数据以及标注数据，并进行文本处理，生成训练集，验证集以及测试集；步骤2:将常用汉字进行图像化处理，生成可输入到预训练模型中的图像数据，并经过预训练模型形成向量，并构建相关字典1；步骤3:针对常用汉字，获取文字的拼音、韵母、声母、音调，并将其编码形成向量，并构建相关字典2；步骤4:使用微调后融合后四层的albert模型生成相应的字embedding；步骤5:将步骤2形成的字形embedding和步骤3生成的字音embedding与步骤4形成的字embedding拼接在一起输入到bilstm
‑
crf中预测相应的标签。2.根据权利要求1所述的一种改进的命名实体识别方法，其特征在于：步骤2包括以下步骤：步骤2.1：获取常用汉字文档；步骤2.2:将步骤2.1获取的常用汉字文档逐个使用pygame库在一个新的su...

【专利技术属性】
技术研发人员：刘博，苏卓，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人