一种新型的优化语言生成模型输出未知字符的方法技术

技术编号:26792125 阅读:32 留言:0更新日期:2020-12-22 17:07
本发明专利技术公开了一种新型的优化语言生成模型输出未知字符的方法,包括以下步骤:(1)向语言生成模型中输入某一或者某些词汇,将当前词汇输入解码器;(2)解码器计算下一个词的概率分布;(3)在得到下一个词概率分布之后,对unk增加一个概率惩罚项;概率惩罚项即在预测下一个词之前先将unk的预测概率改为零;(4)根据步骤(3)调整后的概率分布结果,选择概率最大的词汇作为预测结果进行输出;本发明专利技术的优化方法和模型本身无关,无论是经典的LSTM模型或者是现在比较常用的transformer生成模型,都可以使用这一方法对unk问题进行优化,且都可以达到较好的效果。

【技术实现步骤摘要】
一种新型的优化语言生成模型输出未知字符的方法
本专利技术具体涉及一种新型的优化语言生成模型输出未知字符的方法。
技术介绍
在一般的自然语言生成模型中,由于通常无法在词表中做到训练语料中词汇的全覆盖,因此,需要加入一个特殊的字符(unk字符)来对其进行表示。但是,在实际的业务使用场景中,unk字符的出现往往会极大地影响用户的体验。优化词表是一种比较直观的处理方法。生成结果中unk词汇过多最核心的原因在于词表的覆盖率不高,如果换用覆盖率更高的分词方法(比如sentencepiece分词方法)或者扩大词表的方式都可以一定程度解决这一问题。这种方法的优点是实现简单,缺点在于:由于改变了训练数据的处理方法,因此需要重新对生成模型进行训练,会比较耗时,而且也无法彻底消除unk的问题。以上所述的词表优化是在数据层面进行优化,而后处理则是对模型的输出结果进行优化,通过一些人为定义的规则来处理生成结果中的unk字符或者干脆将包含unk字符的生成结果舍弃。这么做的好处是不需要重新训练模型,但是缺点在于其处理的结果往往会有不尽如人意的地方,而直接舍弃本文档来自技高网...

【技术保护点】
1.一种新型的优化语言生成模型输出未知字符的方法,其特征是,包括以下步骤:/n(1)向语言生成模型中输入某一或者某些词汇,将当前词汇输入解码器;/n(2)解码器计算下一个词的概率分布;/n(3)在得到下一个词概率分布之后,对unk增加一个概率惩罚项;概率惩罚项即在预测下一个词之前先将unk的预测概率改为零,得到调整过的概率分布结果;/n(4)根据步骤(3)调整后的概率分布结果,选择概率最大的词汇作为预测结果进行输出;/n步骤(3)中,概率修正公式如下:/np(word)=softmax(p′(word)) (1)/n

【技术特征摘要】
1.一种新型的优化语言生成模型输出未知字符的方法,其特征是,包括以下步骤:
(1)向语言生成模型中输入某一或者某些词汇,将当前词汇输入解码器;
(2)解码器计算下一个词的概率分布;
(3)在得到下一个词概率分布之后,对unk增加一个概率惩罚项;概率惩罚项即在预测下一个词之前先将unk的预测概率改为零,得到调整过的概率...

【专利技术属性】
技术研发人员:陈一圣罗学优
申请(专利权)人:杭州艾耕科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1