基于BERT预训练模型的新词识别方法和装置制造方法及图纸

技术编号：28674802 阅读：28 留言：0更新日期：2021-06-02 02:51

本发明专利技术提供了一种基于BERT预训练模型的新词识别方法和装置，涉及新词挖掘的技术领域，包括获取语料信息，通过N‑Gram切词算法对语料信息进行分词处理得到多个新词词语；将新词词语输入BERT预训练模型的浅层网络，输出浅层稠密向量，其中，BERT预训练模型中引入有双向自注意力网络，浅层稠密向量包括新词词语的句法特征向量以及词法特征向量，浅层稠密向量用于识别新词词语的边界信息；提取新词词语的离散特征；将浅层稠密向量与离散特征输入DNN二分类模型，识别出正确的新词词语，通过BERT预训练模型的浅层网络确定词语的边界，进而准确识别出正确的新词。

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT预训练模型的新词识别方法和装置
本专利技术涉及新词挖掘
，尤其是涉及一种基于BERT预训练模型的新词识别方法和装置。
技术介绍
随着互联网科技的飞速发展，经常会铸造出一些新兴词汇，即“新词”。在当前的语义识别场景中，往往由于无法准确识别出语句中的新词，而不能正确识别出语句含义。
技术实现思路
本专利技术的目的在于提供一种基于BERT预训练模型的新词识别方法和装置，通过BERT预训练模型的浅层网络确定词语的边界，进而准确识别出正确的新词。第一方面，本专利技术实施例提供了一种基于BERT预训练模型的新词识别方法，包括：获取语料信息，通过N-Gram切词算法对所述语料信息进行分词处理得到多个新词词语；将所述新词词语输入BERT预训练模型的浅层网络，输出浅层稠密向量，其中，所述BERT预训练模型中引入有双向自注意力网络，所述浅层稠密向量包括所述新词词语的句法特征向量以及词法特征向量，所述浅层稠密向量用于识别所述新词词语的边界信息；提取所述新词词语的离散特征；>将所述浅层稠密向量本文档来自技高网...

【技术保护点】
1.一种基于BERT预训练模型的新词识别方法，其特征在于，包括：/n获取语料信息，通过N-Gram切词算法对所述语料信息进行分词处理得到多个新词词语；/n将所述新词词语输入BERT预训练模型的浅层网络，输出浅层稠密向量，其中，所述BERT预训练模型中引入有双向自注意力网络，所述浅层稠密向量包括所述新词词语的句法特征向量以及词法特征向量，所述浅层稠密向量用于识别所述新词词语的边界信息；/n提取所述新词词语的离散特征；/n将所述浅层稠密向量与所述离散特征输入DNN二分类模型，识别出正确的新词词语。/n

【技术特征摘要】
20210114 CN 20211005111491.一种基于BERT预训练模型的新词识别方法，其特征在于，包括：
获取语料信息，通过N-Gram切词算法对所述语料信息进行分词处理得到多个新词词语；
将所述新词词语输入BERT预训练模型的浅层网络，输出浅层稠密向量，其中，所述BERT预训练模型中引入有双向自注意力网络，所述浅层稠密向量包括所述新词词语的句法特征向量以及词法特征向量，所述浅层稠密向量用于识别所述新词词语的边界信息；
提取所述新词词语的离散特征；
将所述浅层稠密向量与所述离散特征输入DNN二分类模型，识别出正确的新词词语。

2.根据权利要求1所述的基于BERT预训练模型的新词识别方法，其特征在于，将所述浅层稠密向量与所述离散特征输入DNN二分类模型，识别出正确的新词词语的步骤，包括：
将所述浅层稠密向量与所述离散特征输入DNN二分类模型；
根据输出结果判断所述新词词语是否为正确的真词，其中，所述输出结果包括所述新词词语为正确的真词的概率；
若所述新词词语为正确的真词的概率大于预设概率值，则将所述新词词语为正确的真词。

3.根据权利要求2所述的基于BERT预训练模型的新词识别方法，其特征在于，所述方法还包括：
若所述新词词语为正确的真词，则通过所述新词词语反馈调节所述DNN二分类模型和所述BERT预训练模型。

4.根据权利要求1所述的基于BERT预训练模型的新词识别方法，其特征在于，所述方法还包括：
对识别新词词语后的语料信息进行语义识别。

5.根据权利要求1所述的基...

【专利技术属性】
技术研发人员：邵德奇，石聪，关培培，朱经南，赵诗阳，冯超，李腾飞，段治平，
申请(专利权)人：科技日报社，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人