用于NLP任务的语言模型构建方法、装置、设备及介质制造方法及图纸

技术编号:29527312 阅读:44 留言:0更新日期:2021-08-03 15:13
本申请涉及人工智能技术领域,揭示了一种用于NLP任务的语言模型构建方法、装置、设备及介质,其中方法包括:获取目标领域的目标词向量生成模型的第一词典,目标词向量生成模型是基于Word2vec训练得到的模型;获取初始语言模型的第二词典,初始语言模型为采用不限领域的样本数据训练得到的Bert模型;根据第一词典和第二词典进行交集获取得到目标词典交集数据;采用最小二乘法对目标词典交集数据进行拟合无约束线性变换得到模拟矩阵向量;根据初始语言模型、目标词向量生成模型和模拟矩阵向量进行语言模型构建得到目标领域对应的目标语言模型。实现进行结构更改之后可以处理目标领域的NLP任务,减少了硬件代价,减少了需要花费的时间。

【技术实现步骤摘要】
用于NLP任务的语言模型构建方法、装置、设备及介质
本申请涉及到人工智能
,特别是涉及到一种用于NLP任务的语言模型构建方法、装置、设备及介质。
技术介绍
对于预训练好的语言模型,我们通常需要将其应用到另一个领域来处理NLP(自然语言处理)任务。传统方法是通过采用目标领域的文本对预训练好的语言模型进行无监督的预训练来实现处理目标领域的NLP任务,比如,想要对生物医学领域进行文本挖掘任务时,需要使用已经在通用领域训练好的Bert模型(语言模型)的权重初始化BioBERT(用于生物医学文本挖掘的预训练语言表示模型),然后采用生物医学领域的语料库对权重初始化后的BioBERT进行预训练。该训练方法出来的结果比较好,但是在硬件方面需要巨大代价,训练需要花费大量的时间,导致延迟了新兴领域的NLP任务的发展。
技术实现思路
本申请的主要目的为提供一种用于NLP任务的语言模型构建方法、装置、设备及介质,旨在解决现有技术采用目标领域的文本对预训练好的语言模型进行无监督的预训练来实现处理目标领域的NLP任务,在硬件方面需要巨大代价,训练本文档来自技高网...

【技术保护点】
1.一种用于NLP任务的语言模型构建方法,其特征在于,所述方法包括:/n获取目标领域的目标词向量生成模型的第一词典,所述目标词向量生成模型是基于Word2vec训练得到的模型;/n获取初始语言模型的第二词典,所述初始语言模型为采用不限领域的样本数据训练得到的Bert模型;/n根据所述第一词典和所述第二词典进行交集获取,得到目标词典交集数据;/n采用最小二乘法,对所述目标词典交集数据进行拟合无约束线性变换,得到模拟矩阵向量;/n根据所述初始语言模型、所述目标词向量生成模型和所述模拟矩阵向量进行语言模型构建,得到所述目标领域对应的目标语言模型。/n

【技术特征摘要】
1.一种用于NLP任务的语言模型构建方法,其特征在于,所述方法包括:
获取目标领域的目标词向量生成模型的第一词典,所述目标词向量生成模型是基于Word2vec训练得到的模型;
获取初始语言模型的第二词典,所述初始语言模型为采用不限领域的样本数据训练得到的Bert模型;
根据所述第一词典和所述第二词典进行交集获取,得到目标词典交集数据;
采用最小二乘法,对所述目标词典交集数据进行拟合无约束线性变换,得到模拟矩阵向量;
根据所述初始语言模型、所述目标词向量生成模型和所述模拟矩阵向量进行语言模型构建,得到所述目标领域对应的目标语言模型。


2.根据权利要求1所述的用于NLP任务的语言模型构建方法,其特征在于,所述获取目标领域的目标词向量生成模型的第一词典的步骤之前,还包括:
获取所述目标领域的训练样本集合;
采用所述训练样本集合对词向量生成初始模型进行训练,将训练结束的所述词向量生成初始模型作为所述目标词向量生成模型。


3.根据权利要求1所述的用于NLP任务的语言模型构建方法,其特征在于,所述根据所述第一词典和所述第二词典进行交集获取,得到目标词典交集数据的步骤,包括:
根据所述第一词典和所述第二词典进行交集获取,得到待去噪的词典交集数据;
对所述待去噪的词典交集数据进行噪声字符的去除,得到所述目标词典交集数据,其中,所述噪声字符包括:表情符号、标点符号和空字符。


4.根据权利要求1所述的用于NLP任务的语言模型构建方法,其特征在于,所述模拟矩阵向量表述为W,采用如下公式计算得到:



其中,W是所述模拟矩阵向量以用于使第一词向量和第二词向量对齐,所述第一词向量是将目标词语输入所述目标词向量生成模型输出的词向量,所述第二词向量是将所述目标词语输入所述初始语言模型输出的词向量,所述目标词语是所述目标词典交集数据中的词语;εw2v(x)是将所述目标词典交集数据中的词语x输入所述目标词向量生成模型输出的所述第一词向量,εLM(x)是将所述目标词典交集数据中的词语x输入所述初始语言模型输出的所述第二词向量,是使后面的计算表达式达到最小值,LLM∩LW2v是所述目标词典交集数据,LLM是所述第一词典,LW2v是所述第二词典,是对Wεw2v(x)-εLM(x)取平方后再开根计算。


5.根据权利要求1所述的用于NLP任务的语言模型构建方法,其特征在于,所述根据所述初始语言模型、所述目标词向量生成模型和所述模拟矩阵向量进行语言模型构建,得到所述目标领域对应的目标语言模型的步骤,包括:
根据所述初始语言模型和所述目标词向量生成模型进行向量生成单元生成,得到目标词向量生成单元;
根据所述目标词向量生成单元、所述初始语言模型和所述模拟矩阵向量进行词嵌入单元生成,得到目标词嵌入单元;
将所述初始语言模型去掉编码器以前的结构,得到目标词向量处理单元;
将所述目标词向量生成单元、所述目标词嵌入单元和所述目标词向量处理单元进行依次连接,得到所述目标领域对应的所述目标语言模型。


6.根据权利要求5所述的用于NLP任务的语言模型构建方法,其特征在于,所述根据所述初始语言模型和所述目标词向量生成模型进行向量生成单元生成,得到目标词向量生成单元的步骤,包括:
将所述目标词向量生成模型作为第一词向量生成子单元;
将所...

【专利技术属性】
技术研发人员:于凤英王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1