【技术实现步骤摘要】
NLP中基于K
‑
best算法和N
‑
gram模型的BERT模型强化方法
[0001]本专利技术涉及自然语言处理领域,具体涉及一种自然语言处理中基于K
‑
best和N
‑
gram的BERT模型强化方法。
技术介绍
[0002]随着自然语言处理NLP领域的不断发展,人们从传统的机器学习方法不断地在向深度学习方法探索。
[0003]近期谷歌提出的BERT(Bidirectional Encoder Representation from Transformers)预训练模型更是在自然语言处理领域的11个任务上大幅刷新了准确率的精度,成为了自然语言处理领域里程碑式的模型。
[0004]BERT模型的预训练通常将文本作为与小文本单元相对应的标记序列来处理,例如英文单词和中文字符。但是,它忽略了较大的文本粒度所携带的信息,因此编码器无法轻松适应某些字符组合。这会导致重要语义信息的丢失,这对于中文尤其成问题,因为中文没有明确的单词边界。
[0005]有内学者提出了一种多粒度BERT模型(On Sample Based Explanation Methods for NLP:Efficiency,Faithfulness,and Semantic Evaluation),以无监督的方式学习有效的多字符语言单元的表示形式,并且还通过对N
‑
gram模型(N元模型)进行预训练作为对自我注意矩阵的隐式正则化,显示出了强大的可
【技术保护点】
【技术特征摘要】
1.一种NLP中基于K
‑
best算法和N
‑
gram模型的BERT模型强化方法,其特征是包括以下步骤:步骤1)获取语料库中的文本用于训练BERT模型,对文本行预处理,得到新文本;步骤2)把步骤1)得到的新文本按照单字、双字、三字输入拼接得到三元语法输入;步骤3)用分词工具,基于K
‑
best维特比算法获取k个分词序列,进行mask掩码微调;最终得到微调后的N
‑
gram;步骤4)将微调后的N
‑
gram输入BERT模型中,进行文本相似度匹配;所述步骤1)的步骤包括:步骤101)对语料进行清洗;步骤102)把语料的原始文本段落拆分,再分别将相邻两个句子拼接成一个句子组,最终得到新文本;同一句子组中,在第一个句子之前添加开始标识符“[CLS]”;分别在每个句子之后添加结束符“[SEP]”;步骤103)将新文本切分成一个字符串input1;所述步骤2)中,创建三元语法输入,步骤包括:步骤201)对原字符串中的字符都左移一个单元,删除开始标识符[CLS],且末尾添加0,得到新的字符串,记为方法一;按照方法一,对步骤103)所得字符串input1处理,得到字符串input2;定义字符串input1为uni
‑
gram;步骤202)将字符串input1和字符串input2相应位置字符进行拼接,第二个新字符串bi
‑
gram;相应位置是指两个字符串中顺序相同的字符;步骤203)对字符串input2按照方法一进行处理,得到字符串input3;将字符串input1、input2和input3中的相应位置字符进行拼接,得到第三个新字符串tri
‑
gram;相应位置是指三个字符串中顺序相同的字符;步骤204)将字符串uni
‑
gram、bi
‑
gram和tri
‑
gram从前到后,依次拼接得到三元语法输入;所述步骤3)中,通过分词工具和K
‑
best维特比算法进行微调,步骤包括...
【专利技术属性】
技术研发人员:徐嘉昊,张帆,
申请(专利权)人:绍兴兰红智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。