文本处理方法、模型训练方法、设备及存储介质技术

技术编号：31089506 阅读：12 留言：0更新日期：2021-12-01 12:49

本申请提供了一种文本处理方法、模型训练方法、设备及存储介质，该方法包括：获取源文本；将源文本输入至序列到序列模型中，得到源文本对应的目标序列；将目标序列转换为目标表格。第一，通过本申请技术方案得到的目标表格不限于两列的形式，其形式灵活。第二，本申请提供的技术方案不需要预先定义实体类型，使得文本处理过程较为简单，从而可以提高文本处理效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、模型训练方法、设备及存储介质

[0001]本申请实施例涉及自然语言处理(Natural Language Processing，NLP)
，尤其涉及一种文本处理方法、模型训练方法、设备及存储介质。

技术介绍

[0002]NLP是指让计算机接收用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。例如：计算机可以接收源文本，通过内部通过人类所定义的算法进行加工、计算等系列操作，返回由该源文本中的关键信息构成的表格。
[0003]目前计算机可以采用命名实体抽取的方式，具体过程包括：计算机预先定义实体类型，当计算机获取到源文本之后，将该源文本输入预训练的基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)模型，该模型可以根据预定义的实体类型，确定源文本中各个实体的实体类型，进而建立实体与实体类型的对应关系，即形成实体与实体类型构成的表格。上述命名实体抽取的方式存在如下缺陷：第一，通过该命名实体抽取的方式所形成的表格格式固定，缺乏灵活性，例如：该表格一定包括两列，一列是实体，另一列是实体类型。第二，需要预先定义实体类型，使得文本处理过程较为繁琐，导致文本处理效率低的问题。

技术实现思路

[0004]本申请提供一种文本处理方法、模型训练方法、设备及存储介质，第一，通过本申请技术方案得到的目标表格不限于两列的形式，其...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：获取源文本；将所述源文本输入至序列到序列模型中，得到所述源文本对应的目标序列；将所述目标序列转换为目标表格。2.根据权利要求1所述的方法，其特征在于，所述序列到序列模型是编码器和解码器框架，所述解码器为N层结构，所述解码器包括输出嵌入层、N层自注意力网络、N层第一处理网络和第二处理网络；所述自注意力网络采用的是单头自注意力机制或者多头自注意力机制；所述将所述源文本输入至序列到序列模型中，得到所述源文本对应的目标序列，包括：S1：所述编码器获取所述源文本，并对所述源文本处理，得到所述源文本的隐藏状态；S2：针对所述目标序列的任一个待输出词，所述输出嵌入层获取所述目标序列中的至少一个已输出词处理，并对所述至少一个已输出词处理，得到所述至少一个已输出词对应的至少一个词向量；S3：针对所述单头自注意力机制或者多头自注意力机制中的每个头，所述N层自注意力网络中的第一层自注意力网络获取所述至少一个词向量，并确定第一词向量与每个第二词向量的表头关系向量，根据所述第一词向量与所述每个第二词向量的表头关系向量、所述至少一个词向量得到第三词向量，所述第一词向量是所述至少一个词向量中的最后一个词向量，所述第二词向量是所述至少一个词向量中任一个词向量，所述第三词向量与所述第一词向量对应；S4：所述N层第一处理网络中的第一层第一处理网络根据所述隐藏状态对所述第三词向量进行处理，得到第四词向量；S5：所述N层自注意力网络中的第二层自注意力网络将所述第四词向量作为新第一词向量，将所述每个第二词向量经过所述第一层第一处理网络处理后的词向量作为新每个第二词向量，以执行S3，直至所述N层第一处理网络中的第N层第一处理网络输出所述第一词向量对应的第五词向量；S6：所述第二处理网络对所述第五词向量进行处理，得到所述待输出词。3.根据权利要求2所述的方法，其特征在于，所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量，包括：所述第一层自注意力网络确定所述第一词向量与所述第二词向量是否具有表头关系；若所述第一词向量与所述第二词向量不具有表头关系，则所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量为零向量；若所述第一词向量与所述第二词向量具有行表头关系，则所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量为第一向量；若所述第一词向量与所述第二词向量具有列表头关系，则所述第一层自注意力网络确定所述第一词向量与所述第二词向量的表头关系向量为第二向量。4.根据权利要求2或3所述的方法，其特征在于，所述第一层自注意力网络根据所述第一词向量与所述每个第二词向量的表头关系向量、所述至少一个词向量得到第三词向量，包括：所述第一层自注意力网络对所述第一词向量进行第一变换，得到所述第一词向量对应的查询；
所述第一层自注意力网络对所述每个第二词向量进行第二变换，得到所述每个第二词向量对应的键；所述第一层自注意力网络根据所述第一词向量对应的查询、所述每个第二词向量对应的键和所述第一词向量与所述每个第二词向量的第一表头关系向量确定所述第一词向量与所述每个第二词向量的相似度，所述第一词向量与所述每个第二词向量的表头关系向量包括：所述第一表头关系向量，所述第一表头关系向量是所述每个第二词向量对应的键对应的表头关系向量；所述第一层自注意力网络对所述每个第二词向量进行第三变换，得到所述每个第二词向量对应的值；所述第一层自注意力网络根据所述第一词向量与所述每个第二词向量的相似度、所述每个第二词向量对应的值和所述第一词向量与所述每个第二词向量的第二表头关系向量确定所述第三词向量，所述第一词向量与所述每个第二词向量的表头关系向量包括：所述第二表头关系向量，所述第二表头关系向量是所述每个第二词向量对应的值对应的表头关系向量。5.根据权利要求4所述的方法，其特征在于，所述第一层自注意力网络根据所述第一词向量对应的查询、所述每个第二词向量对应的键和所述第一词向量与所述每个第二词向量的第一表头关系向量确定所述第一词向量与所述每个第二词向量的相似度，包括：所述第一层自注意力网络计算所述每个第二词向量对应的键和所述第一词向量与所述每个第二词向量的第一表头关系向量之和，得到第一结果；所述第一层自注意力网络计算所述第一词向量对应的查询与所述第一结果的乘积，得到第二结果；所述第一层自注意力网络计算所述第二结果与所述第一词向量对应的查询的维度之商，得到第三结果；所述第一层自注意力网络对每个所述第三结果进行归一化处理，得到所述第一词向量与所述每个第二词向量的相似度。6.根据权利要求4所述的方法，其特征在于，所述第一层自注意力网络根据所述第一词向量与所述每个第二词向量的相似度、所述每个第二词向量对应的值和所述第一词向量与所述每个第二词向量的第二表头关系向量确定所述第三词向量，包括：所述第一层自注意力网络计算所述每个第二词向量对应的值和所述第一词向量与所述每个第二词向量的第二表头关系向量之和，得到第四结果；所述第一层自注意力网络对每个所述第四结果与对应的相似度相乘，得到第五结果；所述第一层自注意力网络对所有所述第五结果求和，得到所述第三词向量。7.根据权利要求2所述的方法，其特征在于，所述解码器对所述源文本的解码过程满足以下解码约束条件：在生成所述目标序列的第一行时，只能在分隔符后生成换行符或者结束符；在生成所述目标序列中除所述第一行以外的其余行时，所述其余行的列数与所述第一行的列数相同，且只能在分隔符后生成换行符或者结束符。8.一种...

【专利技术属性】
技术研发人员：张嘉成，吴雪晴，李航，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人