语言模型训练方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：30407560 阅读：18 留言：0更新日期：2021-10-20 11:16

本发明专利技术涉及人工智能技术，揭露一种语言模型训练方法，包括：对训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理，得到待用预训练数据集；将待用预训练数据集中的文本进行句向量表示处理，得到以句向量表示的预训练数据集；将以句向量表示的预训练数据集输入语言模型中，对语言模型进行模型推理迭代训练，当满足预设模型训练完成条件时，完成对所述语言模型的训练。本发明专利技术还涉及区块链技术，训练数据集存储于区块链中。本发明专利技术能够解决现有技术中，目前的模型训练方式得到的模型不能学习到中文语义层面的信息以及中文实体关系的信息，模型对名词的敏感度以及精确度低等问题。名词的敏感度以及精确度低等问题。名词的敏感度以及精确度低等问题。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型训练方法、装置、设备及计算机可读存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种语言模型训练的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]预训练模型是人工智能NLP领域最重要的发展方向之一。近年来，各种各样的大体量预训练模型陆续出现在大家的眼前，比如BERT，RoBERTa，XLNET等等。
[0003]目前的语言模型的训练方式是随机掩盖15％的基本语言单元，并使用句子中的其他基本单元作为输入，来训练一个任务来预测掩盖单元。在处理中文语言的时候，只能通过预测汉字来进行建模，这样模型并学不到中文单词和实体的完整语义。比如对于“北京是中国的首都”的训练语料，使用目前的训练方式，模型只能通过字的共现关系很推出“北”字后面是“京”字，而“北京”这个词包含着实体连续的含义，如果只mask(掩码)一部分，则没有显式地对“北京”这个语义概念以及对应语义关系进行建模，这样并不能学习中国
‑
首都
‑
北京之间的实体关系。

技术实现思路

[0004]本专利技术提供一种语言模型训练方法、装置、电子设备及计算机可读存储介质，其主要目的在于能够解决现有技术中，目前的模型训练方式得到的模型不能学习到中文语义层面的信息以及中文实体关系的信息，模型对名词的敏感度以及精确度低等问题。
[0005]第一方面，为实现上述目的，本专利技术提供的一种语言模型训练方法，所述方法包括：
[0006]对获取的初始训练数据进行清洗预处理，得到训练数据...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法，应用于电子装置，其特征在于，所述方法包括：对获取的初始训练数据进行清洗预处理，得到训练数据集；通过掩码模型对所述训练数据集中的文本分别进行字层面掩码、短语层面掩码、实体层面掩码和词性层面掩码处理，将分别得到的字层面掩码信息数据集、短语层面掩码信息数据集、实体层面掩码信息数据集和词性层面掩码信息数据集共同作为待用预训练数据集；其中，所述掩码模型包括用于输入所述训练数据集的输入层、用于对所述训练数据集进行字层面掩码处理的字掩码层、用于对所述训练数据集进行短语层面掩码处理的短语掩码层、用于对所述训练数据集进行实体层面掩码处理的实体掩码层、用于对所述训练数据集进行词性层面掩码处理的词性掩码层和用于将所述字掩码层得到的字层面掩码信息数据集、所述短语掩码层得到的短语层面掩码信息数据集、所述实体掩码层得到的实体层面掩码信息数据集和所述词性掩码层得到的词性层面掩码信息数据集共同作为待用预训练数据集输出的输出层；将所述待用预训练数据集中的文本进行句向量表示处理，得到以句向量表示的预训练数据集；将所述以句向量表示的预训练数据集输入语言模型中，对所述语言模型进行基于字掩码对应向量、词语掩码对应向量、实体掩码对应向量和词性掩码对应向量的模型推理迭代训练，当满足预设模型训练完成条件时，完成对所述语言模型的训练。2.根据权利要求1所述的语言模型训练方法，其特征在于，所述训练数据集存储于区块链中，所述对所述训练数据集中的文本进行字层面掩码，得到字层面掩码信息数据集包括：随机提取所述训练数据集中文本的单个字，作为预测字；对所述预测字进行掩码处理，得到字层面掩码信息数据集；其中，所述字层面掩码信息数据集包括训练数据集中的文本和进行掩码处理的预测字。3.根据权利要求1所述的语言模型训练方法，其特征在于，所述对所述训练数据集中的文本进行短语层面掩码，得到短语层面掩码信息数据集包括：对所述训练数据集中的文本进行分词处理，得到第一文本分词数据集；随机提取所述第一文本分词数据集中的短语，作为预测短语；对所述预测短语进行掩码处理，得到短语层面掩码信息数据集；其中，所述短语层面掩码信息数据集包括训练数据集中的文本和进行掩码处理的预测短语。4.根据权利要求1所述的语言模型训练方法，其特征在于，所述对所述训练数据集中的文本进行实体层面掩码，得到实体层面掩码信息数据集包括：对所述训练数据集中的文本进行分词处理，得到第二文本分词数据集；采用中文命名实体识别工具抽取所述第二文本分词数据集中的实体，作为预测实体；对所述预测实体进行掩码处理，得到实体层面掩码信息数据集；其中，所述实体层面掩码信息数据集包括训练数据集中的文本和进行掩码处理的预测实体。5.根据权利要求1所述的语言模型训练方法，其特征在于，所述对所述训练数据集中的文本进行词性层面掩码，得到词性层面掩码信息数据集包括：对所述训练数据集中的文本进行分词处理，得到第三文本分词数据集；对所述第三文本分词数据集中的名词进行标注，得到标注名词集；
从所述标注名词集中随机抽取标注的名词作为预测名词；对所述...

【专利技术属性】
技术研发人员：高文捷，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人