语言模型训练、视频字幕校验方法、装置、设备及介质制造方法及图纸

技术编号：28058355 阅读：15 留言：0更新日期：2021-04-14 13:32

本发明专利技术涉及人工智能技术领域，提供一种语言模型训练、视频字幕校验方法、装置、设备及介质。该语言模型训练方法通过将文字样本集中仅包含中文字符的样本句子输入含有初始参数的初始拆字预训练模型中，对样本句子依次进行分词处理、部首拆分、粒度拆分以及解码识别，得到样本解码句子；根据样本解码句子与仅包含中文字符的样本句子，确定文本损失值；在文本损失值未达到预设的收敛条件时，更新迭代初始参数，直至文本损失值达到预设的收敛条件时，将收敛之后的初始拆字预训练模型记录为基于拆字的中文预训练语言模型。本发明专利技术还涉及区块链技术，所述基于拆字的中文预训练语言模型存储于区块链中，本发明专利技术可以提高对文字或者文本进行预处理的准确率。行预处理的准确率。行预处理的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型训练、视频字幕校验方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种语言模型训练、视频字幕校验方法、装置、设备及介质。

技术介绍

[0002]随着科学技术的发展，人工智能领域也发展越来越快。在文字识别、文本校验等场景中，常常使用基于字词的预训练语言模型对文字或者文本进行预处理等。
[0003]现有技术中，在文字识别、文本校验等场景中使用到的基于字词的预训练语言模型，整体词汇表较大(通常超过两万)，该词汇表虽然包含了大规模的词语，但是会导致预训练语言模型体积大，推理速度慢，因而在训练较小的模型时并不适合。如在广告文字识别中，仅需要训练一个较小的模型，使得该模型可以识别出广告用语中的字词即可，若采用现有技术中的模型进行训练，会导致训练得到的模型参数过多，进而导致模型在识别过程中模型计算量大，从而导致识别速度慢。其次，在一些用词不严谨且错误词汇较多的特定应用场景下，现有的基于字词的预训练语言模型对于字词的敏感性较高，但鲁棒性较低，因此会导致对文字或者文本进行预处理的准确率较低。
>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法，其特征在于，包括：获取文字样本集和含有初始参数的初始拆字预训练模型，所述文字样本集包含至少一个样本句子，一个所述样本句子包含至少一个中文字符；所述初始拆字预训练模型包括字符编码模型以及字符解码模型；在所述样本句子中仅包含中文字符时，将所述样本句子输入所述初始拆字预训练模型中，通过所述字符编码模型对所述样本句子进行分词处理，得到所述样本句子中每一中文样本字词；通过所述字符编码模型对每一所述中文样本字词中所有所述中文字符进行部首拆分，得到每一所述中文字符的部首分解结果；通过所述字符编码模型对所有所述部首分解结果进行粒度拆分，得到拆分结果；通过所述字符解码模型对所述拆分结果进行解码识别，得到样本解码句子；根据所述样本解码句子与仅包含中文字符的所述样本句子，确定文本损失值；在所述文本损失值未达到预设的收敛条件时，更新迭代所述初始拆字预训练模型的初始参数，直至所述文本损失值达到所述预设的收敛条件时，将收敛之后的所述初始拆字预训练模型记录为基于拆字的中文预训练语言模型。2.如权利要求1所述的语言模型训练方法，其特征在于，所述将所述样本句子输入所述初始拆字预训练模型之前，包括：在所述样本句子中包含非中文字符时，获取所有所述非中文字符在所述样本句子中的位置信息，并根据所述位置信息截取所有所述非中文字符，并将截取所述非中文字符后的所述样本句子输入所述初始拆字预训练模型中。3.如权利要求1所述的语言模型训练方法，其特征在于，所述通过所述字符编码模型对每一所述中文样本字词中所有所述中文字符进行部首拆分，得到每一所述中文字符的部首分解结果，包括：在所述中文字符包含可拆分部首结构时，对每一所述中文字符进行初次部首拆分，得到第一分解字符；检测所述第一分解字符是否为最小字符单位；若所述第一分解字符为最小字符单位，则将每一最小字符单位对应的第一分解字符记录为与其对应的所述中文字符的部首分解结果。4.如权利要求3所述的语言模型训练方法，其特征在于，所述检测所述第一分解字符是否为最小字符单位之后，还包括：若所述第一分解字符不是最小字符单位，则对所述第一分解字符进行结构分析，得到所述第一分解字符的第一字符结构，并根据所述第一字符结构对所述第一分解字符进行二次部首拆分，得到第二分解字符；若所述第二分解字符均为最小字符单位，则将最小字符单位的第一分解字符以及第二分解字符，记录为所述部首分解结果。5.如权利要求3所述的语言模型训练方法，其特征在于，所述对每一所述中文字符进行初次部首拆分，得到第一分解字符之后，还包括：检测所述第一分解字符是否为现有字符；若所述第一分解字符不为现有字符，则对所述第一分解字符进行编码，得到与所述第
一分解字符对应的编码字符。6.一种视频字幕校验方法，其特征在于，包括：获取视频字幕校验模型以及待校验视频；所述视频字幕校验模型中包括语音识别模型以及字幕识别模型；所述字幕识别模型是基于拆字的中文预训练语言模型进行训练得到的；所述基于拆字的中文预训练语言模型根据如权利要求1至5任一项所述语言模型训练方法得到的；获取所述待校验视频中的语音数据，...

【专利技术属性】
技术研发人员：李恬静，朱威，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人