一种基于聚类与预训练模型结合的命名实体识别方法技术

技术编号：29758836 阅读：14 留言：0更新日期：2021-08-20 21:12

本发明专利技术公开了一种基于机器学习与Bert模型结合的命名实体识别方法对Bert训练后的结果结合机器学习的方法来改进Bert与NER任务的精确度。首先对Bert的结果提取其中的每个词的特征向量。首次迭代时，首先通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点，避免了认为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果的人为因素。通过不断迭代运算，最终确定K个簇中的个个节点集，将节点集返回结果与Bert结果中的[CLS]结合，真正做到TopicBert的作用，并在运用训练后的参数进行NER或其他任务中提高效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类与预训练模型结合的命名实体识别方法
本专利技术属于人工智能
，涉及人工智能NLP方向，具体涉及一种基于聚类与预训练模型结合的命名实体识别方法，提高对知识图谱构建时数据收集的效率。
技术介绍
随着信息科技的发展，互联网信息总量指数式翻增，传统信息量大而杂的现象已经难以处理，深度学习的重要领域自然语言处理可以为传统信息智能化提供好的思路。网络化信息来源广泛，内容错综复杂，很难获取每个信息节点之间的关系，知识图谱的构建很大的解决的信息之间的关联性问题，通过图数据库展示每个信息节点之间的关系，让来源不同的信息不在孤立节点而是以二元组的形式体现出来。目前知识图谱在构建的构建分为知识抽取，知识融合，知识储存，知识推理。而对于知识抽取的过程中，命名实体识别为主要任务，命名实体识别的精度越高效率越好，对于后期的处理工作就更容易进行，并且还能简化清洗数据的过程，不但能让知识抽取效果更好，还能提高图谱的构建准确度。目前命名实体识别主要的模型就是BiLSTM-CRF和BERT-BiLSTM-CRF。但是这两种模型都不能自动的生成一个数据集对应的分类Topic，使其在对数据处理时无法有效的抓住更多的数据信息。本专利技术基于BERT结合Canopy-Kmeans并行聚类来提升BERT训练效果，从而更提高NER的精度。
技术实现思路
本专利技术旨在提供一种基于聚类与预训练模型结合的命名实体识别方法。采用topic机制的方式解决了现有技术中存在的BERT模型在训练的精度较低，在执行NER任务时准确性不...

【技术保护点】
1.一种基于聚类与预训练模型结合的命名实体识别方法，其特征在于，首先对Bert的结果提取其中的每个词的特征向量；在进行对特征向量的首次迭代时，通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点，避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响；通过不断迭代运算，最终确定K个簇中的个个节点集，将节点集返回结果与Bert结果中的[CLS]结合，从而得到一个结合了Topic类别标记的Bert训练模型，并在运用训练后的参数进行NER时中提高识别效率和准确性。/n

【技术特征摘要】
1.一种基于聚类与预训练模型结合的命名实体识别方法，其特征在于，首先对Bert的结果提取其中的每个词的特征向量；在进行对特征向量的首次迭代时，通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点，避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响；通过不断迭代运算，最终确定K个簇中的个个节点集，将节点集返回结果与Bert结果中的[CLS]结合，从而得到一个结合了Topic类别标记的Bert训练模型，并在运用训练后的参数进行NER时中提高识别效率和准确性。

2.具体操作步骤如下：
步骤1，模型的预训练语义段落来源于中文Wikipedia数据库，先从中文Wikipedia数据库中爬取数据；
步骤2，对步骤1中的数据进行数据清洗，制作成训练可用的数据集保存在数据库中；
步骤3，配置Bert的模型参数包括初始学习率，隐藏层个数，自注意力头数，Encoder-Decoder层数，全连接层维度；
步骤4，调用步骤3中完成基本参数配置后的Bert模型，同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入，运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中；
步骤5，利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy；
步骤6，将步骤5中，中心节点集合Canopy为聚类的K个初始点；
步骤7，计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离；
步骤8，对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇；
步骤9，采用误差平方和目标函数对一个簇内所有节点求平均值C，C就为下次迭代时中心节点；
步骤10，重复步骤7，步骤8，步骤9直到中心节点位置收敛即可；
步骤11，依据聚类的K个类别将数据进行划分并标记Topic；
步骤12，将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中；...

【专利技术属性】
技术研发人员：朱磊，吴江浩，黑新宏，王一川，姬文江，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人