跨领域语言模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24121539 阅读:15 留言:0更新日期:2020-05-13 03:14
本申请提供了一种跨领域语言模型训练方法、装置、电子设备及存储介质,所述方法包括:获得多个领域的语料训练集;基于所述多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自的输出,其中,所述多个语言模型与所述多个领域的语料训练集一一对应;根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型。本申请提供了一种跨领域语言模型训练方法,通过基于线性插值的语言模型混合方法,将多个领域的语言模型混合为一个模型,有效解决了语言模型跨领域的脆弱性,提高了语言模型性能指标以及降低了语言模型的困惑度。

Cross domain language model training methods, devices, electronic devices and storage media

【技术实现步骤摘要】
跨领域语言模型训练方法、装置、电子设备及存储介质
本专利技术涉及自然语言处理
,特别是涉及一种跨领域语言模型训练方法、装置、电子设备及存储介质。
技术介绍
自然语言处理(NLP)是计算机科学、语言学和机器学习的交叉点,它致力于让计算机能够理解和生成人类语言,但是计算机无法直接对语言字符进行数学运算,需要将文本转换为数学符号,然后应用各类算法进行处理,得到我们想要的结果。语言模型是根据语言客观事实而进行的语言抽象数学建模,将自然语言文本转换为带语义特征的数学符号,因此语言模型的性能好坏直接影响NLP系统的性能。尽管语言模型的理论基础已比较完善,但是语言模型但在实际应用中常常会遇到一些难以处理的问题,模型对跨领域的脆弱性(brittlenessacrossdomains)是最显著的问题。一方面,在实际应用场景中训练语言模型时采用的语料往往来自多种不同的领域,来自不同领域的数据无论在主题方面,还是在风格方面都有一定的差异,另一方面,语言模型对跨领域的数据非常敏感,直接影响语言模型的性能指标。
技术实现思路
本申请实施例提供了一种跨领域语言模型训练方法、装置、电子设备及存储介质,旨在解决语言模型跨领域的脆弱性,提高语言模型性能指标,降低语言模型的困惑度。本申请实施例第一方面提供了一种跨领域语言模型训练方法,包括:获得多个领域的语料训练集;基于所述多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自的输出,其中,所述多个语言模型与所述多个领域的语料训练集一一对应;根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型。可选地,根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型,包括:根据所述多个语言模型各自经第一次训练后的输出,以及预先为所述多个语言模型分配的初始化的插值系数,对所述多个语言模型进行第一次插值,得到第一次插值后的语言模型;根据所述多个语言模型各自经下一次训练后的输出,以及所述多个语言模型各自经下一次训练后对应的插值系数,对所述多个语言模型进行下一次插值,直到得到所述跨领域语言模型。可选地,在对所述多个语言模型进行第r次插值之前,所述方法还包括:按照以下公式确定所述多个语言模型各自经第r次训练后对应的插值系数,其中,表示第r次训练后,第j个语言模型在第i类语料训练集上对应的插值系数,n表示所述多个语言模型的总数,Pij表示第j个语言模型经第r次训练后的输出,h表示第r-1次训练后第j个语言模型在第i类语料训练集上的λ值,i<=n。可选地,在对所述多个语言模型进行插值,得到所述跨领域语言模型后,所述方法还包括:根据NCE损失函数计算所述跨领域语言模型的损失值;根据所述损失值对所述跨领域语言模型的模型参数进行优化。可选地,在对所述多个语言模型进行插值,得到所述跨领域语言模型后,所述方法还包括:获得当前输入词;将所述当前输入词输入所述跨领域语言模型,输出针对所述当前输入词预测得到的下一个词。可选地,获得多个领域的语料训练集,包括:获得混合语料,所述混合语料包括多个不同领域的语料数据;确定聚类目标,所述聚类目标为按照数据来源聚类、按照数据主题聚类以及按照数据类型聚类中的任意一种;根据所述聚类目标,对所述混合语料进行聚类处理,得到所述多个领域的语料训练集。可选地,基于所述多个领域的语料训练集,对多个语言模型进行训练,包括:将所述多个领域的语料训练集划分为多个语料训练子集,每个所述语料训练子集中包含每一个领域的语料训练集的符合预设数量的语料;基于所述多个语料训练子集中每一个语料训练子集,对所述多个语言模型进行训练。本申请实施例第二方面提供了一种跨领域语言模型训练装置,包括:获得模块,用于获得多个领域的语料训练集;训练模块,用于基于所述多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自的输出,其中,所述多个语言模型与所述多个领域的语料训练集一一对应;插值模块,用于根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型。可选地,所述插值模块包括:第一插值模块,用于根据所述多个语言模型各自经第一次训练后的输出,以及预先为所述多个语言模型分配的初始化的插值系数,对所述多个语言模型进行第一次插值,得到第一次插值后的语言模型;第二插值模块,用于根据所述多个语言模型各自经下一次训练后的输出,以及所述多个语言模型各自经下一次训练后对应的插值系数,对所述多个语言模型进行下一次插值,直到得到所述跨领域语言模型。可选地,所述装置还包括:确定模块,用于按照以下公式确定所述多个语言模型各自经第r次训练后对应的插值系数,其中,表示第r次训练后,第j个语言模型在第i类语料训练集上对应的插值系数,n表示所述多个语言模型的总数,Pij表示第j个语言模型经第r次训练后的输出,h表示第r-1次训练后第j个语言模型在第i类语料训练集上的λ值,i<=n。可选地,所述装置还包括:计算模块,用于根据NCE损失函数计算所述跨领域语言模型的损失值;优化模块,用于根据所述损失值对所述跨领域语言模型的模型参数进行优化。可选地,所述装置还包括:输入模块,用于获得当前输入词;输出模块,用于将所述当前输入词输入所述跨领域语言模型,输出针对所述当前输入词预测得到的下一个词。可选地,所述获得模块包括:获得子模块,用于获得混合语料,所述混合语料包括多个不同领域的语料数据;确定子模块,用于确定聚类目标,所述聚类目标为按照数据来源聚类、按照数据主题聚类以及按照数据类型聚类中的任意一种;聚类模块,用于根据所述聚类目标,对所述混合语料进行聚类处理,得到所述多个领域的语料训练集。可选地,所述训练模块包括:划分模块,用于将所述多个领域的语料训练集划分为多个语料训练子集,每个所述语料训练子集中包含每一个领域的语料训练集的符合预设数量的语料;训练子模块,用于基于所述多个语料训练子集中每一个语料训练子集,对所述多个语言模型进行训练。本申请实施例第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。本申请实施例提供了一种跨领域语言模型训练方法,首先获得多个领域的语料训练集;然后基于多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自本文档来自技高网...

【技术保护点】
1.一种跨领域语言模型训练方法,其特征在于,包括:/n获得多个领域的语料训练集;/n基于所述多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自的输出,其中,所述多个语言模型与所述多个领域的语料训练集一一对应;/n根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型。/n

【技术特征摘要】
1.一种跨领域语言模型训练方法,其特征在于,包括:
获得多个领域的语料训练集;
基于所述多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自的输出,其中,所述多个语言模型与所述多个领域的语料训练集一一对应;
根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型。


2.根据权利要求1所述的方法,其特征在于,根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型,包括:
根据所述多个语言模型各自经第一次训练后的输出,以及预先为所述多个语言模型分配的初始化的插值系数,对所述多个语言模型进行第一次插值,得到第一次插值后的语言模型;
根据所述多个语言模型各自经下一次训练后的输出,以及所述多个语言模型各自经下一次训练后对应的插值系数,对所述多个语言模型进行下一次插值,直到得到所述跨领域语言模型。


3.根据权利要求2所述的方法,其特征在于,在对所述多个语言模型进行第r次插值之前,所述方法还包括:
按照以下公式确定所述多个语言模型各自经第r次训练后对应的插值系数,其中,




表示第r次训练后,第j个语言模型在第i类语料训练集上对应的插值系数,n表示所述多个语言模型的总数,Pij表示第j个语言模型经第r次训练后的输出,h表示第r-1次训练后第j个语言模型在第i类语料训练集上的λ值,i<=n。


4.根据权利要求1所述的方法,其特征在于,在对所述多个语言模型进行插值,得到所述跨领域语言模型后,所述方法还包括:
根据NCE损失函数计算所述跨领域语言模型的损失值;
根据所述损失值对所述跨领域语言模型的模型参数进行优化。


5.根据权利要求...

【专利技术属性】
技术研发人员:谢福进王志海喻波魏力孙亚东
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1