文本识别处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:26066611 阅读:33 留言:0更新日期:2020-10-28 16:39
本申请公开了一种文本识别处理方法以及装置,涉及自然语言处理领域、深度学习领域。具体实现方案为:获取N个片段序列,其中,至少一个片段序列存在掩码;将N个片段序列输入至初始语言模型,获取与N个片段序列对应的第一文本向量信息;将每个片段序列再次输入至初始语言模型,获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息;若检测到当前输入的第N个片段序列中存在掩码,则根据第二文本向量信息和第一文本向量信息对掩码进行预测,获取与掩码对应目标位置的预测词;根据目标位置预设的原始词和预测词,训练初始语言模型的模型参数以生成长文本语言模型,根据该模型按照预设的目标任务对输入文本进行识别处理。

【技术实现步骤摘要】
文本识别处理方法、装置、电子设备和存储介质
本申请的实施例总体上涉及计算机
,并且更具体地,涉及自然语言处理领域、深度学习

技术介绍
近年来,以通用语义表示模型BERT为代表的预训练模型提出了“预训练+微调”的范式,其可以大幅提升各类NLP(NaturalLanguageProcessing,自然语言处理)任务的效果。BERT模型采用深层Transformer模型结构,使用海量无监督文本学习上下文相关表示,并使用通用统一的方式解决各类自然语言处理任务(例如文本匹配、文本生成、情感分类、文本摘要、问答、检索等)。但是,目前主流的语义表示模型只能建模长度在较短长度(如512)以内的片段,对于像整篇文章这样长度超过512的文本难以建模,无法识别处理超长文本信息。
技术实现思路
提供了一种文本识别处理方法、装置、电子设备以及存储介质。根据第一方面,提供了一种文本识别处理方法,包括:获取N个片段序列,其中,至少一个片段序列存在掩码;将所述N个片段序列依次输入至预设的初始语言模型,获取与所述N个片段序列对应的第一文本向量信息;将每个所述片段序列依次再次输入至所述初始语言模型,获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息;如果检测到所述当前输入的第N个片段序列中存在掩码,则根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测,获取与所述掩码对应目标位置的预测词;根据所述目标位置预设的原始词和所述预测词,训练所述初始语言模型,获取模型参数生成长文本语言模型,根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。根据第二方面,提供了一种文本识别处理装置,包括:第一获取模块,用于获取N个片段序列,其中,至少一个片段序列存在掩码;第二获取模块,用于将所述N个片段序列依次输入至预设的初始语言模型,获取与所述N个片段序列对应的第一文本向量信息;第三获取模块,用于将每个所述片段序列依次再次输入至所述初始语言模型,获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息;预测模块,用于在检测到所述当前输入的第N个片段序列中存在掩码时,根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测,获取与所述掩码对应目标位置的预测词;训练模块,用于根据所述目标位置预设的原始词和所述预测词,训练所述初始语言模型,获取模型参数生成长文本语言模型;识别处理模块,用于根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的文本识别处理方法。根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面所述的文本识别处理方法。根据本申请的技术方案,可获取N个片段序列,其中,至少一个片段序列存在掩码,并将N个片段序列输入至预设的初始语言模型,获取与N个片段序列对应的第一文本向量信息;将每个片段序列再次输入至初始语言模型,获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息,若检测到当前输入的第N个片段序列中存在掩码,则根据第二文本向量信息和第一文本向量信息对掩码进行预测,获取与掩码对应目标位置的预测词,之后,根据目标位置预设的原始词和预测词,训练初始语言模型的模型参数以生成长文本语言模型,根据该模型按照预设的目标任务对输入文本进行识别处理。由此可见,本申请通过将语料文本循环输入到模型中(即输入两遍到模型中),将语料文本的第一遍输入到模型之中时,只用来生成该语料文本中片段序列的文本向量,此时并不对掩码进行预测学习,只有在第二遍输入该语料文本时,由于此时已经获得第一遍输入的片段序列的文本向量信息,此时可通过模型利用该第一遍输入而获得的片段序列所对应的文本向量信息,以及第二遍当前输入的片段序列对掩码进行预测,通过对掩码预测的正确与否回传梯度,从而实现对模型的训练,使得训练得到的模型可以处理超过512长度的文本。另外,由于本申请采用的是分段建模的方式,对于512以内的文本,也能够较快的实现建模,提升建模速度。由于语料文本循环输入了两遍,使得每个片段序列都能够得到上下文信息,从而可以提高训练模型的性能,使得训练好的模型性能效果更好,从而可以有效提升自然语言处理任务的效果。此外,本申请在利用片段序列对初始语言模型进行训练时,可以通过深度学习的方式进行训练,相比于其他机器学习方法,深度学习在大数据集上的表现更好。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请一个实施例的文本识别处理方法的流程图;图2是根据本申请另一个实施例的文本识别处理方法的流程图;图3是根据本申请实施例的长文本建模流程的示例图;图4是根据本申请又一个实施例的文本识别处理方法的流程图;图5是根据本申请实施例的分类任务输入的示例图;图6根据本申请另一个实施例的文本识别处理方法的流程图;图7是根据本申请实施例的文本摘要生成任务输入的示例图;图8是根据本申请一个实施例的文本识别处理装置的结构框图;图9是用来实现本申请实施例的用以实现文本识别处理方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请一个实施例的文本识别处理方法的流程图。需要说明的是,本申请实施例的文本识别处理方法可应用于本申请实施例的文本识别处理装置,该文本识别处理装置可被配置于电子设备上。如图1所示,该文本识别处理方法可以包括:步骤101,获取N个片段序列,其中,至少一个片段序列存在掩码。在本申请的一些实施例中,可获取长文本语料,并将长文本语料的多个位置上的原始词分别替换成掩码,获取长文本遮掩语料,并按照预设的目标长度划分所述长文本遮掩语料获取N个片段序列。其中,上述每个长文本语料的文本长度可超过一定阈值,例如,每个长文本语料可以是整篇文章,或每个长文本语料的长度远超过512。可选地,在得到长文本语料之后,可对长文本语料进行实体识别,并将长文本语料中的实体所本文档来自技高网...

【技术保护点】
1.一种文本识别处理方法,其特征在于,包括:/n获取N个片段序列,其中,至少一个片段序列存在掩码;/n将所述N个片段序列依次输入至预设的初始语言模型,获取与所述N个片段序列对应的第一文本向量信息;/n将每个所述片段序列依次再次输入至所述初始语言模型,获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息;/n如果检测到所述当前输入的第N个片段序列中存在掩码,则根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测,获取与所述掩码对应目标位置的预测词;/n根据所述目标位置预设的原始词和所述预测词,训练所述初始语言模型,获取模型参数生成长文本语言模型,根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。/n

【技术特征摘要】
1.一种文本识别处理方法,其特征在于,包括:
获取N个片段序列,其中,至少一个片段序列存在掩码;
将所述N个片段序列依次输入至预设的初始语言模型,获取与所述N个片段序列对应的第一文本向量信息;
将每个所述片段序列依次再次输入至所述初始语言模型,获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息;
如果检测到所述当前输入的第N个片段序列中存在掩码,则根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测,获取与所述掩码对应目标位置的预测词;
根据所述目标位置预设的原始词和所述预测词,训练所述初始语言模型,获取模型参数生成长文本语言模型,根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。


2.根据权利要求1所述的文本识别处理方法,所述获取N个片段序列,其中,至少一个片段序列存在掩码,包括:
获取长文本语料,并将所述长文本语料的多个位置上的原始词分别替换成掩码,获取长文本遮掩语料;
按照预设的目标长度划分所述长文本遮掩语料获取N个片段序列。


3.根据权利要求1所述的文本识别处理方法,所述根据所述目标位置预设的原始词和所述预测词,训练所述初始语言模型,获取模型参数生成长文本语言模型,包括:
按照预设算法对所述目标位置预设的原始词和所述预测词生成第一损失值;
根据所述第一损失值和预设的目标函数训练所述初始语言模型,获取模型参数以生成长文本语言模型。


4.根据权利要求1所述的文本识别处理方法,所述根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理,包括:
如果检测所述目标任务为分类任务,则对多个样本语料进行对应的类别标记;
将所述多个样本语料和对应的类别标记输入到所述长文本语言模型进行训练,对所述模型参数进行调整,获取与所述分类任务对应的长文本语言模型;
根据与所述分类任务对应的长文本语言模型对所述输入文本进行识别,获取与所述输入文本对应的目标类型。


5.根据权利要求1所述的文本识别处理方法,所述根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理,包括:
如果检测所述目标任务为文本摘要生成任务,则对多个样本语料进行对应的摘要标记;
将所述多个样本语料和对应的摘要标记输入到所述长文本语言模型进行训练,对所述模型参数进行调整,获取与所述文本摘要生成任务对应的长文本语言模型;
根据与所述分类任务对应的长文本语言模型对所述输入文本进行识别,获取与所述输入文本对应的文本摘要。


6.一种文本识别处理装置,其特征在于,包括:
第一获取模块,用于获取N个片段序列,其中,至少一个片段序列存在掩码;
第二获取模块,用于将所述N个片段序列依次输入至预设的初始语言模型,获取...

【专利技术属性】
技术研发人员:王硕寰丁思宇孙宇吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1