一种改进的命名实体识别方法技术

技术编号:29047165 阅读:23 留言:0更新日期:2021-06-26 06:04
本发明专利技术公开了一种改进的命名实体识别方法,首先提出不再使用偏旁部首或者笔画等方式对字进行字形的获取,而是将字转化为图片的形式,转变为图像处理,可以从更形象的角度更充分的捕捉汉字的字形特征。通过将形成的图像通过预训练模型,快速地得到结果,一定程度上解决了汉字训练数据少的问题。将拼音不作为一整块进行编码,而是将拼音按发音成分拆封成声母、韵母、声调来进行编码,一定程度上更好地捕捉了汉字的字音特征。本发明专利技术通过将albert中在命名实体识别任务中重要的四层进行了选择与拼接,实现了对albert模型的微调,提高了模型性能。性能。性能。

【技术实现步骤摘要】
一种改进的命名实体识别方法


[0001]本专利技术属于自然语言生成领域,尤其涉及信息抽取中命名实体识别的相关方法。

技术介绍

[0002]近年来,互联网的快速发展,信息社会建设的日渐加速,给各行业现代化体系系统提出了更高的要求,相关电子文本作为各行业信息化系统建设的一部分,其数量与日渐增。如何通过技术手段提取电子文本中包含的一些关键信息,应用于各行业信息化、辅助决策等方面具有重要的研究价值。随着信息技术的发展,基于自然语言处理的命名实体识别成为学术界的研究热点。
[0003]在命名实体识别领域,经历了一个演变过程,早期的命名实体方法基于语言学家手工设定规则模版来进行模式匹配,从而对实体种类进行分类,1994年Friedman等研发的MedLEE利用词汇和语法等规则和医疗词典进行命名实体识别任务,后来随着机器学习领域的发展,机器学习的各种方法开始应用于命名实体识别领域,传统机器学习方法主要应用马尔可夫模型和条件随机场,通常用一个节点表示一个或一组随机变量,节点之间的边表示变量间的概率关系。crf可以为任何HMM能够建模的事物建模,可以定义更加广泛的特征集,可以有任意权重值,得到了提升。随着深度学习的进一步发展,开始有学者将rnn结构应用于命名实体识别领域,Zhiheng Huang、Wei Xu、Kai Yu等人提出了用于序列标注的双向lstm

crf模型,在首次将bilstm

crf模型用于序列标注任务并取得了最优结果。拉开了命名实体识别深度学习时代的序幕。近年来命名实体识别的主流方法是运用以bert为代表的预训练模型,Yu等利用BERT

BiLSTM

CRF获得了更好的实验结果,超过了之前的主流方法。
[0004]由于中文汉字区别于英文的特殊性,许多学者开始研究怎么更好地捕捉汉字的特征,但传统的提取部首或者笔画作为特征输入到模型中只是单方面的捕捉汉字的字形特征,无法充分全面地捕捉到中文汉字的字形特征,同时将拼音作为一整块进行编码,也无法充分捕捉到汉字发音相似之间的关联性。

技术实现思路

[0005]本专利技术主要解决的技术问题是现有公开数据集的基础上,提出一种新的网络结构,更好的捕捉字的特征信息,提高识别效率。本文将字的字形字音信息通过全新的方式进行提取,并将albert对命名实体识别最有作用的四层进行了拼接优化,最后形成全新的网络结构。
[0006]本专利技术使用ccks2020电子病历命名实体识别数据集以及中医药天池大数据竞赛中医药数据集作为验证,首先提出不再使用偏旁部首或者笔画等方式对字进行字形的获取,而是将字转化为图片的形式,转变为图像处理,使用预训练模型对字的图像进行特征提取,更好的捕捉字形的特征,涵盖字形偏旁部首笔画等特征。
[0007]本专利技术其次提出了一种新的字音编码方式,拼音不作为一整块进行编码,拼音的组成部分有声母,韵母,声调,将这些部分进行组合编码,这样可以更好的捕捉读音之间的
相似性。
[0008]本专利技术针对bert的不同层的结果可以得到不同层次的语义和句法信息,针对bert进行的命名实体识别任务,更换了更轻量级的Albert,并对Albert进行了微调,选择了albert中对命名实体识别任务最为有效的四层进行了融合然后进行训练。
[0009]针对以上方面的改进,本专利技术提出了一个新的模型,融合将字转化为图提取的字形特征,声母、韵母、声调组合的字音体征,以及将albert进行微调后的更为有效的预训练结果进行拼接,将最终向量送入到bilstm+crf中进行标签提取。
[0010]一种融合字形字音的命名实体识别方法包括以下步骤:
[0011]步骤1:获取相关需要进行命名实体识别的文本数据以及标注数据,并进行一系列的文本处理,生成训练集,验证集以及测试集。
[0012]步骤2:将常用汉字进行图像化处理,生成可输入到预训练模型中的图像数据,并经过预训练模型形成向量,并构建相关字典1。
[0013]步骤3:针对常用汉字,获取文字的拼音、韵母、声母、音调,并将其编码形成向量,并构建相关字典2。
[0014]步骤4:使用微调后融合后四层的albert模型生成相应的字embedding。步骤5:将步骤2形成的字形embedding和步骤3生成的字音embedding与步骤4形成的字embedding拼接在一起输入到bilstm

crf中预测相应的标签。
[0015]作为优选,步骤2包括以下步骤:
[0016]步骤2.1:获取常用汉字文档;
[0017]步骤2.2:将步骤2.1获取的常用汉字文档逐个使用pygame库在一个新的surface对象上绘制文本,字体选择华文楷体;
[0018]步骤2.3:将2.2生成好的文件通过DenseNet121预训练模型训练生成向量;
[0019]步骤2.4:最后生成字典1json文件;
[0020]作为优选,步骤3包括以下步骤:
[0021]步骤3.1:获取常用汉字文档;
[0022]步骤3.2:针对步骤3.1获取的常用汉字文档获取每个汉字的拼音、声母、韵母、声调。
[0023]步骤3.3:针对步骤3.2中所有出现过的声母、韵母、声调进行one

hot编码
[0024]步骤3.4:最后生成字典2json文件。
[0025]作为优选,步骤4包括以下步骤:
[0026]步骤4.1寻找针对命名实体任务Albert模型中最为有效的四层
[0027]步骤4.2在Albert中选择步骤4.1寻找到的最为有效的四层即后四层进行实验作为对Albert的微调
[0028]步骤4.3将处理好的数据输入到Albert中生成相应字特征与embedding
[0029]与现有技术相比,本专利技术具有以下明显优势:
[0030]1、汉字是一种悠久的语言,是一种象形字,传统的部首笔画等特征提取方法均无法充分地捕捉到汉字的字形特征,本专利技术将汉字转化为图形图像处理,可以从更形象的角度更充分的捕捉汉字的字形特征。通过将形成的图像通过预训练模型,快速地得到结果,一定程度上解决了汉字训练数据少的问题。
[0031]2、传统的字音特征提取方法将整个拼音进行编码,没有合理的运用到读音之间的相似性,通过读音之间的相似性也可以一定程度上捕捉字之间的关联性。本文将拼音不作为一整块进行编码,而是将拼音按发音成分拆封成声母、韵母、声调来进行编码,一定程度上更好地捕捉了汉字的字音特征。
[0032]3、在用albert进行命名实体识别任务中,实施模型裁剪的方案,对albert进行微调,对模型的语义表征能力不会有太大影响,反而会有一些提升,同时又能大幅减少模型参数量和推理时间。本专利技术通过将albert中在命名实体识别任务中重要的四层进行了选择与拼接,实现了对albert模型的微调,提高了模型性能。
附图说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进的命名实体识别方法,其特征在于:包括以下步骤:步骤1:获取相关需要进行命名实体识别的文本数据以及标注数据,并进行文本处理,生成训练集,验证集以及测试集;步骤2:将常用汉字进行图像化处理,生成可输入到预训练模型中的图像数据,并经过预训练模型形成向量,并构建相关字典1;步骤3:针对常用汉字,获取文字的拼音、韵母、声母、音调,并将其编码形成向量,并构建相关字典2;步骤4:使用微调后融合后四层的albert模型生成相应的字embedding;步骤5:将步骤2形成的字形embedding和步骤3生成的字音embedding与步骤4形成的字embedding拼接在一起输入到bilstm

crf中预测相应的标签。2.根据权利要求1所述的一种改进的命名实体识别方法,其特征在于:步骤2包括以下步骤:步骤2.1:获取常用汉字文档;步骤2.2:将步骤2.1获取的常用汉字文档逐个使用pygame库在一个新的su...

【专利技术属性】
技术研发人员:刘博苏卓
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1