语言模型训练方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:30407560 阅读:18 留言:0更新日期:2021-10-20 11:16
本发明专利技术涉及人工智能技术,揭露一种语言模型训练方法,包括:对训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理,得到待用预训练数据集;将待用预训练数据集中的文本进行句向量表示处理,得到以句向量表示的预训练数据集;将以句向量表示的预训练数据集输入语言模型中,对语言模型进行模型推理迭代训练,当满足预设模型训练完成条件时,完成对所述语言模型的训练。本发明专利技术还涉及区块链技术,训练数据集存储于区块链中。本发明专利技术能够解决现有技术中,目前的模型训练方式得到的模型不能学习到中文语义层面的信息以及中文实体关系的信息,模型对名词的敏感度以及精确度低等问题。名词的敏感度以及精确度低等问题。名词的敏感度以及精确度低等问题。

【技术实现步骤摘要】
语言模型训练方法、装置、设备及计算机可读存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种语言模型训练的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]预训练模型是人工智能NLP领域最重要的发展方向之一。近年来,各种各样的大体量预训练模型陆续出现在大家的眼前,比如BERT,RoBERTa,XLNET等等。
[0003]目前的语言模型的训练方式是随机掩盖15%的基本语言单元,并使用句子中的其他基本单元作为输入,来训练一个任务来预测掩盖单元。在处理中文语言的时候,只能通过预测汉字来进行建模,这样模型并学不到中文单词和实体的完整语义。比如对于“北京是中国的首都”的训练语料,使用目前的训练方式,模型只能通过字的共现关系很推出“北”字后面是“京”字,而“北京”这个词包含着实体连续的含义,如果只mask(掩码)一部分,则没有显式地对“北京”这个语义概念以及对应语义关系进行建模,这样并不能学习中国

首都

北京之间的实体关系。

技术实现思路

[0004]本专利技术提供一种语言模型训练方法、装置、电子设备及计算机可读存储介质,其主要目的在于能够解决现有技术中,目前的模型训练方式得到的模型不能学习到中文语义层面的信息以及中文实体关系的信息,模型对名词的敏感度以及精确度低等问题。
[0005]第一方面,为实现上述目的,本专利技术提供的一种语言模型训练方法,所述方法包括:
[0006]对获取的初始训练数据进行清洗预处理,得到训练数据集;
[0007]通过掩码模型对所述训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理,将分别得到的字层面掩码信息数据集、短语层面掩码信息数据集、实体层面掩码信息数据集和词性层面掩码信息数据集共同作为待用预训练数据集;
[0008]其中,所述掩码模型包括用于输入所述训练数据集的输入层、用于对所述训练数据集进行字层面掩码处理的字掩码层、用于对所述训练数据集进行短语层面掩码处理的短语掩码层、用于对所述训练数据集进行实体层面掩码处理的实体掩码层、用于对所述训练数据集进行词性层面掩码处理的词性掩码层和用于将所述字掩码层得到的字层面掩码信息数据集、所述短语掩码层得到的短语层面掩码信息数据集、所述实体掩码层得到的实体层面掩码信息数据集和所述词性掩码层得到的词性层面掩码信息数据集共同作为待用预训练数据集输出的输出层;将所述待用预训练数据集中的文本进行句向量表示处理,得到以句向量表示的预训练数据集;
[0009]将所述以句向量表示的预训练数据集输入语言模型中,对所述语言模型进行基于字掩码对应向量、词语掩码对应向量、实体掩码对应向量和词性掩码对应向量的模型推理
迭代训练,当满足预设模型训练完成条件时,完成对所述语言模型的训练。
[0010]第二方面,为了解决上述问题,本专利技术还提供一种语言模型训练装置,所述装置包括:
[0011]数据清洗模块,用于对获取的初始训练数据进行清洗预处理,得到训练数据集;
[0012]掩码处理模块,用于通过掩码模型对所述训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理,将分别得到的字层面掩码信息数据集、短语层面掩码信息数据集、实体层面掩码信息数据集和词性层面掩码信息数据集共同作为待用预训练数据集;
[0013]其中,所述掩码模型包括用于输入所述训练数据集的输入层、用于对所述训练数据集进行字层面掩码处理的字掩码层、用于对所述训练数据集进行短语层面掩码处理的短语掩码层、用于对所述训练数据集进行实体层面掩码处理的实体掩码层、用于对所述训练数据集进行词性层面掩码处理的词性掩码层和用于将所述字掩码层得到的字层面掩码信息数据集、所述短语掩码层得到的短语层面掩码信息数据集、所述实体掩码层得到的实体层面掩码信息数据集和所述词性掩码层得到的词性层面掩码信息数据集共同作为待用预训练数据集输出的输出层;
[0014]句向量处理模块,用于将所述待用预训练数据集中的文本进行句向量表示处理,得到以句向量表示的预训练数据集;
[0015]推理迭代训练模块,用于将所述以句向量表示的预训练数据集输入语言模型中,对所述语言模型进行基于字掩码对应向量、词语掩码对应向量、实体掩码对应向量和词性掩码对应向量的模型推理迭代训练,当满足预设模型训练完成条件时,完成对所述语言模型的训练。
[0016]第三方面,为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0017]存储器,存储至少一个指令;及
[0018]处理器,执行所述存储器中存储的指令以实现上述所述的语言模型训练方法的步骤。
[0019]第四方面,为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的语言模型训练方法。
[0020]本专利技术提出的语言模型训练方法、装置、电子设备及计算机可读存储介质,通过对训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理,将分别得到的字层面掩码信息数据集、短语层面掩码信息数据集、实体层面掩码信息数据集和词性层面掩码信息数据集共同作为待用预训练数据集,对语言模型进行训练,使训练后的语言模型学习到大量的中文语义层面的信息以及中文实体关系的信息,加入词性掩码策略,让模型对名词更加具有敏感度,进一步增加语言模型的精确度。
附图说明
[0021]图1为本专利技术一实施例提供的语言模型训练方法的流程示意图;
[0022]图2为本专利技术一实施例提供的语言模型训练装置的模块示意图;
[0023]图3为本专利技术一实施例提供的实现语言模型训练方法的电子设备的内部结构示意
图;
[0024]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0025]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0026]本专利技术提供一种语言模型训练方法。参照图1所示,为本专利技术一实施例提供的语言模型训练方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
[0027]在本实施例中,语言模型训练方法包括:
[0028]步骤S110、对获取的初始训练数据进行清洗预处理,得到训练数据集。
[0029]具体的,当处理器接收到进行语言模型训练的指令时,从文本数据库中获取初始训练数据,由于初始训练数据中可能存在一些特殊符号、数字、以及一些特殊格式会影响后续的模型训练,因此,需要对初始训练数据进行清洗预处理;其中,对获取的初始训练数据进行清洗预处理,得到训练数据集包括:对获取的初始训练数据中的样本进行数字清洗处理,得到除去数字的训练数据集;对除去数字的训练数据集中的样本进行特殊符号清洗处理,得到除去特殊符号的训练数据集;对除去特殊符号的训练数据集中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法,应用于电子装置,其特征在于,所述方法包括:对获取的初始训练数据进行清洗预处理,得到训练数据集;通过掩码模型对所述训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理,将分别得到的字层面掩码信息数据集、短语层面掩码信息数据集、实体层面掩码信息数据集和词性层面掩码信息数据集共同作为待用预训练数据集;其中,所述掩码模型包括用于输入所述训练数据集的输入层、用于对所述训练数据集进行字层面掩码处理的字掩码层、用于对所述训练数据集进行短语层面掩码处理的短语掩码层、用于对所述训练数据集进行实体层面掩码处理的实体掩码层、用于对所述训练数据集进行词性层面掩码处理的词性掩码层和用于将所述字掩码层得到的字层面掩码信息数据集、所述短语掩码层得到的短语层面掩码信息数据集、所述实体掩码层得到的实体层面掩码信息数据集和所述词性掩码层得到的词性层面掩码信息数据集共同作为待用预训练数据集输出的输出层;将所述待用预训练数据集中的文本进行句向量表示处理,得到以句向量表示的预训练数据集;将所述以句向量表示的预训练数据集输入语言模型中,对所述语言模型进行基于字掩码对应向量、词语掩码对应向量、实体掩码对应向量和词性掩码对应向量的模型推理迭代训练,当满足预设模型训练完成条件时,完成对所述语言模型的训练。2.根据权利要求1所述的语言模型训练方法,其特征在于,所述训练数据集存储于区块链中,所述对所述训练数据集中的文本进行字层面掩码,得到字层面掩码信息数据集包括:随机提取所述训练数据集中文本的单个字,作为预测字;对所述预测字进行掩码处理,得到字层面掩码信息数据集;其中,所述字层面掩码信息数据集包括训练数据集中的文本和进行掩码处理的预测字。3.根据权利要求1所述的语言模型训练方法,其特征在于,所述对所述训练数据集中的文本进行短语层面掩码,得到短语层面掩码信息数据集包括:对所述训练数据集中的文本进行分词处理,得到第一文本分词数据集;随机提取所述第一文本分词数据集中的短语,作为预测短语;对所述预测短语进行掩码处理,得到短语层面掩码信息数据集;其中,所述短语层面掩码信息数据集包括训练数据集中的文本和进行掩码处理的预测短语。4.根据权利要求1所述的语言模型训练方法,其特征在于,所述对所述训练数据集中的文本进行实体层面掩码,得到实体层面掩码信息数据集包括:对所述训练数据集中的文本进行分词处理,得到第二文本分词数据集;采用中文命名实体识别工具抽取所述第二文本分词数据集中的实体,作为预测实体;对所述预测实体进行掩码处理,得到实体层面掩码信息数据集;其中,所述实体层面掩码信息数据集包括训练数据集中的文本和进行掩码处理的预测实体。5.根据权利要求1所述的语言模型训练方法,其特征在于,所述对所述训练数据集中的文本进行词性层面掩码,得到词性层面掩码信息数据集包括:对所述训练数据集中的文本进行分词处理,得到第三文本分词数据集;对所述第三文本分词数据集中的名词进行标注,得到标注名词集;
从所述标注名词集中随机抽取标注的名词作为预测名词;对所述...

【专利技术属性】
技术研发人员:高文捷
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1