文本处理方法、模型训练方法、设备及存储介质技术

技术编号:31089506 阅读:12 留言:0更新日期:2021-12-01 12:49
本申请提供了一种文本处理方法、模型训练方法、设备及存储介质,该方法包括:获取源文本;将源文本输入至序列到序列模型中,得到源文本对应的目标序列;将目标序列转换为目标表格。第一,通过本申请技术方案得到的目标表格不限于两列的形式,其形式灵活。第二,本申请提供的技术方案不需要预先定义实体类型,使得文本处理过程较为简单,从而可以提高文本处理效率。率。率。

【技术实现步骤摘要】
文本处理方法、模型训练方法、设备及存储介质


[0001]本申请实施例涉及自然语言处理(Natural Language Processing,NLP)
,尤其涉及一种文本处理方法、模型训练方法、设备及存储介质。

技术介绍

[0002]NLP是指让计算机接收用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。例如:计算机可以接收源文本,通过内部通过人类所定义的算法进行加工、计算等系列操作,返回由该源文本中的关键信息构成的表格。
[0003]目前计算机可以采用命名实体抽取的方式,具体过程包括:计算机预先定义实体类型,当计算机获取到源文本之后,将该源文本输入预训练的基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型,该模型可以根据预定义的实体类型,确定源文本中各个实体的实体类型,进而建立实体与实体类型的对应关系,即形成实体与实体类型构成的表格。上述命名实体抽取的方式存在如下缺陷:第一,通过该命名实体抽取的方式所形成的表格格式固定,缺乏灵活性,例如:该表格一定包括两列,一列是实体,另一列是实体类型。第二,需要预先定义实体类型,使得文本处理过程较为繁琐,导致文本处理效率低的问题。

技术实现思路

[0004]本申请提供一种文本处理方法、模型训练方法、设备及存储介质,第一,通过本申请技术方案得到的目标表格不限于两列的形式,其形式灵活。第二,本申请提供的技术方案不需要预先定义实体类型,使得文本处理过程较为简单,从而可以提高文本处理效率。
[0005]第一方面,本申请提供一种文本处理方法,包括:获取源文本;将源文本输入至序列到序列模型中,得到源文本对应的目标序列;将目标序列转换为目标表格。
[0006]第二方面,本申请提供一种模型训练方法,包括:获取多个第一训练样本和初始模型,第一训练样本包括:文本和文本对应的表格;将表格转换为序列,文本和序列构成第二训练样本;通过多个第一训练样本对应的多个第二训练样本训练初始模型,得到序列到序列模型。
[0007]第三方面,本申请提供一种序列到序列模型,序列到序列模型是编码器和解码器框架,解码器为N层结构,解码器包括输出嵌入层、自注意力网络、第一处理网络和第二处理网络;S1:编码器用于获取源文本,并对源文本处理,得到源文本的隐藏状态;S2:针对源文本对应的目标序列的任一个待输出词,输出嵌入层用于获取目标序列中的至少一个已输出词处理,并对至少一个已输出词处理,得到至少一个已输出词对应的至少一个词向量;S3:针对单头自注意力机制或者多头自注意力机制中的每个头,第一层自注意力网络用于获取至少一个词向量,并确定第一词向量与每个第二词向量的表头关系向量,根据第一词向量与每个第二词向量的表头关系向量、至少一个词向量得到第三词向量,第一词向量是至少
一个词向量中的最后一个词向量,第二词向量是至少一个词向量中任一个词向量,第三词向量与第一词向量对应;S4:第一层第一处理网络用于根据隐藏状态对第三词向量进行处理,得到第四词向量;S5:第二层自注意力网络用于将第四词向量作为新第一词向量,将每个第二词向量经过第一层第一处理网络处理后的词向量作为新每个第二词向量,以执行S3,直至第N层第一处理网络输出第一词向量对应的第五词向量;S6:第二处理网络用于对第五词向量进行处理,得到待输出词。
[0008]第四方面,本申请一种文本处理装置,包括:获取模块、输入模块和转换模块,其中,获取模块用于获取源文本;输入模块用于将源文本输入至序列到序列模型中,得到源文本对应的目标序列;转换模块用于将目标序列转换为目标表格。
[0009]第五方面,本申请一种模型训练装置,包括:获取模块、转换模块、训练模块,其中,获取模块用于获取多个第一训练样本和初始模型,第一训练样本包括:文本和文本对应的表格;转换模块用于将表格转换为序列,文本和序列构成第二训练样本;训练模块用于通过多个第一训练样本对应的多个第二训练样本训练初始模型,得到序列到序列模型。
[0010]第六方面,提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面、第二方面或其各实现方式中的方法。
[0011]第七方面,提供一种计算机可读存储介质,用于存储计算机程序,计算机程序使得计算机执行如第一方面、第二方面或其各实现方式中的方法。
[0012]第八方面,提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面、第二方面或其各实现方式中的方法。
[0013]第九方面,提供一种计算机程序,计算机程序使得计算机执行如第一方面、第二方面或其各实现方式中的方法。
[0014]通过本申请提供的技术方案,第一,通过本申请技术方案得到的目标表格不限于两列的形式,其形式灵活。第二,本申请提供的技术方案不需要预先定义实体类型,使得文本处理过程较为简单,从而可以提高文本处理效率。
附图说明
[0015]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为Transformer的框架图;
[0017]图2为本申请实施例提供的一种文本处理方法的流程图;
[0018]图3为本申请实施例提供的序列到序列模型的示意图;
[0019]图4为本申请实施例提供的一种目标序列的获取方法流程图;
[0020]图5为本申请实施例提供的一种模型训练方法的流程图;
[0021]图6为本申请实施例提供的一种文本处理装置600的示意图;
[0022]图7为本申请实施例提供的一种模型训练装置700的示意图;
[0023]图8是本申请实施例提供的电子设备800的示意性框图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取源文本;将所述源文本输入至序列到序列模型中,得到所述源文本对应的目标序列;将所述目标序列转换为目标表格。2.根据权利要求1所述的方法,其特征在于,所述序列到序列模型是编码器和解码器框架,所述解码器为N层结构,所述解码器包括输出嵌入层、N层自注意力网络、N层第一处理网络和第二处理网络;所述自注意力网络采用的是单头自注意力机制或者多头自注意力机制;所述将所述源文本输入至序列到序列模型中,得到所述源文本对应的目标序列,包括:S1:所述编码器获取所述源文本,并对所述源文本处理,得到所述源文本的隐藏状态;S2:针对所述目标序列的任一个待输出词,所述输出嵌入层获取所述目标序列中的至少一个已输出词处理,并对所述至少一个已输出词处理,得到所述至少一个已输出词对应的至少一个词向量;S3:针对所述单头自注意力机制或者多头自注意力机制中的每个头,所述N层自注意力网络中的第一层自注意力网络获取所述至少一个词向量,并确定第一词向量与每个第二词向量的表头关系向量,根据所述第一词向量与所述每个第二词向量的表头关系向量、所述至少一个词向量得到第三词向量,所述第一词向量是所述至少一个词向量中的最后一个词向量,所述第二词向量是所述至少一个词向量中任一个词向量,所述第三词向量与所述第一词向量对应;S4:所述N层第一处理网络中的第一层第一处理网络根据所述隐藏状态对所述第三词向量进行处理,得到第四词向量;S5:所述N层自注意力网络中的第二层自注意力网络将所述第四词向量作为新第一词向量,将所述每个第二词向量经过所述第一层第一处理网络处理后的词向量作为新每个第二词向量,以执行S3,直至所述N层第一处理网络中的第N层第一处理网络输出所述第一词向量对应的第五词向量;S6:所述第二处理网络对所述第五词向量进行处理,得到所述待输出词。3.根据权利要求2所述的方法,其特征在于,所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量,包括:所述第一层自注意力网络确定所述第一词向量与所述第二词向量是否具有表头关系;若所述第一词向量与所述第二词向量不具有表头关系,则所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量为零向量;若所述第一词向量与所述第二词向量具有行表头关系,则所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量为第一向量;若所述第一词向量与所述第二词向量具有列表头关系,则所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量为第二向量。4.根据权利要求2或3所述的方法,其特征在于,所述第一层自注意力网络根据所述第一词向量与所述每个第二词向量的表头关系向量、所述至少一个词向量得到第三词向量,包括:所述第一层自注意力网络对所述第一词向量进行第一变换,得到所述第一词向量对应的查询;
所述第一层自注意力网络对所述每个第二词向量进行第二变换,得到所述每个第二词向量对应的键;所述第一层自注意力网络根据所述第一词向量对应的查询、所述每个第二词向量对应的键和所述第一词向量与所述每个第二词向量的第一表头关系向量确定所述第一词向量与所述每个第二词向量的相似度,所述第一词向量与所述每个第二词向量的表头关系向量包括:所述第一表头关系向量,所述第一表头关系向量是所述每个第二词向量对应的键对应的表头关系向量;所述第一层自注意力网络对所述每个第二词向量进行第三变换,得到所述每个第二词向量对应的值;所述第一层自注意力网络根据所述第一词向量与所述每个第二词向量的相似度、所述每个第二词向量对应的值和所述第一词向量与所述每个第二词向量的第二表头关系向量确定所述第三词向量,所述第一词向量与所述每个第二词向量的表头关系向量包括:所述第二表头关系向量,所述第二表头关系向量是所述每个第二词向量对应的值对应的表头关系向量。5.根据权利要求4所述的方法,其特征在于,所述第一层自注意力网络根据所述第一词向量对应的查询、所述每个第二词向量对应的键和所述第一词向量与所述每个第二词向量的第一表头关系向量确定所述第一词向量与所述每个第二词向量的相似度,包括:所述第一层自注意力网络计算所述每个第二词向量对应的键和所述第一词向量与所述每个第二词向量的第一表头关系向量之和,得到第一结果;所述第一层自注意力网络计算所述第一词向量对应的查询与所述第一结果的乘积,得到第二结果;所述第一层自注意力网络计算所述第二结果与所述第一词向量对应的查询的维度之商,得到第三结果;所述第一层自注意力网络对每个所述第三结果进行归一化处理,得到所述第一词向量与所述每个第二词向量的相似度。6.根据权利要求4所述的方法,其特征在于,所述第一层自注意力网络根据所述第一词向量与所述每个第二词向量的相似度、所述每个第二词向量对应的值和所述第一词向量与所述每个第二词向量的第二表头关系向量确定所述第三词向量,包括:所述第一层自注意力网络计算所述每个第二词向量对应的值和所述第一词向量与所述每个第二词向量的第二表头关系向量之和,得到第四结果;所述第一层自注意力网络对每个所述第四结果与对应的相似度相乘,得到第五结果;所述第一层自注意力网络对所有所述第五结果求和,得到所述第三词向量。7.根据权利要求2所述的方法,其特征在于,所述解码器对所述源文本的解码过程满足以下解码约束条件:在生成所述目标序列的第一行时,只能在分隔符后生成换行符或者结束符;在生成所述目标序列中除所述第一行以外的其余行时,所述其余行的列数与所述第一行的列数相同,且只能在分隔符后生成换行符或者结束符。8.一种...

【专利技术属性】
技术研发人员:张嘉成吴雪晴李航
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1