文本识别处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：26066611 阅读：33 留言：0更新日期：2020-10-28 16:39

本申请公开了一种文本识别处理方法以及装置，涉及自然语言处理领域、深度学习领域。具体实现方案为：获取N个片段序列，其中，至少一个片段序列存在掩码；将N个片段序列输入至初始语言模型，获取与N个片段序列对应的第一文本向量信息；将每个片段序列再次输入至初始语言模型，获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息；若检测到当前输入的第N个片段序列中存在掩码，则根据第二文本向量信息和第一文本向量信息对掩码进行预测，获取与掩码对应目标位置的预测词；根据目标位置预设的原始词和预测词，训练初始语言模型的模型参数以生成长文本语言模型，根据该模型按照预设的目标任务对输入文本进行识别处理。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别处理方法、装置、电子设备和存储介质
本申请的实施例总体上涉及计算机
，并且更具体地，涉及自然语言处理领域、深度学习

技术介绍
近年来，以通用语义表示模型BERT为代表的预训练模型提出了“预训练+微调”的范式，其可以大幅提升各类NLP(NaturalLanguageProcessing，自然语言处理)任务的效果。BERT模型采用深层Transformer模型结构，使用海量无监督文本学习上下文相关表示，并使用通用统一的方式解决各类自然语言处理任务(例如文本匹配、文本生成、情感分类、文本摘要、问答、检索等)。但是，目前主流的语义表示模型只能建模长度在较短长度(如512)以内的片段，对于像整篇文章这样长度超过512的文本难以建模，无法识别处理超长文本信息。
技术实现思路
提供了一种文本识别处理方法、装置、电子设备以及存储介质。根据第一方面，提供了一种文本识别处理方法，包括：获取N个片段序列，其中，至少一个片段序列存在掩码；将所述N个片段序列依次输入至预设的初始语言模型，获取与所述N个片段序列对应的第一文本向量信息；将每个所述片段序列依次再次输入至所述初始语言模型，获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息；如果检测到所述当前输入的第N个片段序列中存在掩码，则根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测，获取与所述掩码对应目标位置的预测词；根据所述目标位置预设的原始词和所述预...

【技术保护点】
1.一种文本识别处理方法，其特征在于，包括：/n获取N个片段序列，其中，至少一个片段序列存在掩码；/n将所述N个片段序列依次输入至预设的初始语言模型，获取与所述N个片段序列对应的第一文本向量信息；/n将每个所述片段序列依次再次输入至所述初始语言模型，获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息；/n如果检测到所述当前输入的第N个片段序列中存在掩码，则根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测，获取与所述掩码对应目标位置的预测词；/n根据所述目标位置预设的原始词和所述预测词，训练所述初始语言模型，获取模型参数生成长文本语言模型，根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。/n

【技术特征摘要】
1.一种文本识别处理方法，其特征在于，包括：
获取N个片段序列，其中，至少一个片段序列存在掩码；
将所述N个片段序列依次输入至预设的初始语言模型，获取与所述N个片段序列对应的第一文本向量信息；
将每个所述片段序列依次再次输入至所述初始语言模型，获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息；
如果检测到所述当前输入的第N个片段序列中存在掩码，则根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测，获取与所述掩码对应目标位置的预测词；
根据所述目标位置预设的原始词和所述预测词，训练所述初始语言模型，获取模型参数生成长文本语言模型，根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。

2.根据权利要求1所述的文本识别处理方法，所述获取N个片段序列，其中，至少一个片段序列存在掩码，包括：
获取长文本语料，并将所述长文本语料的多个位置上的原始词分别替换成掩码，获取长文本遮掩语料；
按照预设的目标长度划分所述长文本遮掩语料获取N个片段序列。

3.根据权利要求1所述的文本识别处理方法，所述根据所述目标位置预设的原始词和所述预测词，训练所述初始语言模型，获取模型参数生成长文本语言模型，包括：
按照预设算法对所述目标位置预设的原始词和所述预测词生成第一损失值；
根据所述第一损失值和预设的目标函数训练所述初始语言模型，获取模型参数以生成长文本语言模型。

4.根据权利要求1所述的文本识别处理方法，所述根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理，包括：
如果检测所述目标任务为分类任务，则对多个样本语料进行对应的类别标记；
将所述多个样本语料和对应的类别标记输入到所述长文本语言模型进行训练，对所述模型参数进行调整，获取与所述分类任务对应的长文本语言模型；
根据与所述分类任务对应的长文本语言模型对所述输入文本进行识别，获取与所述输入文本对应的目标类型。

5.根据权利要求1所述的文本识别处理方法，所述根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理，包括：
如果检测所述目标任务为文本摘要生成任务，则对多个样本语料进行对应的摘要标记；
将所述多个样本语料和对应的摘要标记输入到所述长文本语言模型进行训练，对所述模型参数进行调整，获取与所述文本摘要生成任务对应的长文本语言模型；
根据与所述分类任务对应的长文本语言模型对所述输入文本进行识别，获取与所述输入文本对应的文本摘要。

6.一种文本识别处理装置，其特征在于，包括：
第一获取模块，用于获取N个片段序列，其中，至少一个片段序列存在掩码；
第二获取模块，用于将所述N个片段序列依次输入至预设的初始语言模型，获取...

【专利技术属性】
技术研发人员：王硕寰，丁思宇，孙宇，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人