文本处理方法和文本处理装置制造方法及图纸

技术编号:30513799 阅读:19 留言:0更新日期:2021-10-27 22:55
本公开提供了一种文本处理方法,涉及人工智能领域,尤其涉及自然语言处理领域。具体实现方案为:对待处理文本进行编码,得到编码后的文本数据,其中编码后的文本数据包括与待处理文本中的每个字相对应的编码数据以及与每个字对应的位置标识符ID;以及将编码后的文本数据输入自然语言处理模型,得到文本的处理结果;对待处理文本进行编码包括:针对待处理文本中的每个字,生成随机的自然数,作为该字的位置ID,其中,针对待处理文本中的相邻字,相邻字的位置ID的数值之间的差值为非零自然数。本公开还提供了一种文本处理装置、一种电子设备、一种存储有计算机指令的非瞬时性计算机可读存储介质以及一种计算机程序产品。读存储介质以及一种计算机程序产品。读存储介质以及一种计算机程序产品。

【技术实现步骤摘要】
文本处理方法和文本处理装置


[0001]本公开涉及人工智能领域,尤其涉及自然语言处理领域,具体涉及一 种文本处理方法、文本处理装置、电子设备、存储有计算机指令的非瞬时 计算机可读存储介质、以及计算机程序产品。

技术介绍

[0002]近年来,随着自然语言处理(Natural language processing,NLP)技 术的不断发展,基于大规模语料的预训练语言模型+下游任务微调的模式 已逐渐成为了主流的研究模式。其中,以Transformer为基础架构的模型(例 如,Bert)已几乎完全取代过去以RNN(Recurrent Neural Network)为基 础架构的模型(例如,ELMo),并且大幅提升了各类NLP任务的效果(例 如,文本匹配、文本生成、情感分类、文本摘要、问答、检索等)。

技术实现思路

[0003]本公开提供了一种文本处理方法、文本处理装置、电子设备、存储有 计算机指令的非瞬时计算机可读存储介质、以及计算机程序产品。
[0004]根据本公开的一方面,提供了一种文本处理方法,包括:
[0005]对待处理文本进行编码,得到编码后的文本数据,其中所述编码后的 文本数据包括与所述待处理文本中的每个字相对应的编码数据以及与每 个字对应的位置标识符ID;以及
[0006]将所述编码后的文本数据输入自然语言处理模型,得到所述文本的处 理结果;
[0007]其中,所述对待处理文本进行编码包括:针对所述待处理文本中的每 个字,生成随机的自然数,作为该字的位置ID,<br/>[0008]其中,针对所述待处理文本中的相邻字,所述相邻字的位置ID的数 值之间的差值为非零自然数。
[0009]根据本公开的另一方面,提供了一种文本处理装置,包括:
[0010]编码模块,用于对待处理文本进行编码,得到编码后的文本数据,其 中所述编码后的文本数据包括与所述待处理文本中的每个字相对应的编 码数据以及与每个字对应的位置标识符ID;以及
[0011]自然语言处理模块,被配置为将所述编码后的文本数据输入自然语言 处理模型,得到所述文本的处理结果;
[0012]其中,所述编码模块包括生成子模块,用于针对所述待处理文本中的 每个字,生成随机的自然数,作为该字的位置ID,
[0013]其中,针对所述待处理文本中的相邻字,所述相邻字的位置ID的数 值之间的差值为非零自然数。
[0014]根据本公开的另一方面,提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被 所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本处 理方法。
[0018]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算 机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述文本 处理方法。
[0019]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程 序,所述计算机程序在被处理器执行时实现上述文本处理方法。
[0020]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键 或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下 的说明书而变得容易理解。
附图说明
[0021]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0022]图1是一种绝对位置编码方法的示意图;
[0023]图2是根据本公开实施例的用于文本处理的系统架构的示意图;
[0024]图3是一种对待处理文本进行编码的实施例的示意图;
[0025]图4是根据本公开实施例的文本处理方法的示意流程图。
[0026]图5是根据本公开实施例的对待处理文本进行编码的一个实施例的示 意图;
[0027]图6是根据本公开实施例的对待处理文本进行编码的另一实施例的示 意图;
[0028]图7是根据本公开实施例的对待处理文本进行编码的另一实施例的示 意图;
[0029]图8是用来实现本公开实施例的文本处理方法的文本处理装置的框图; 以及
[0030]图9是用来实现本公开实施例的文本处理方法的电子设备的框图。
具体实施方式
[0031]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实 施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本 领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和 修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的 描述中省略了对公知功能和结构的描述。
[0032]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。 在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件 的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部 件。
[0033]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通 常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有 与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来 解释。
[0034]在使用类似于“使、B和C等中至少一个”这样的表述的情况下,一般 来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,
ꢀ“
具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具 有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、 B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的 情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以 解释(例如,“具有A、B或
C中至少一个的系统”应包括但不限于单独具 有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、 和/或具有A、B、C的系统等)。
[0035]在自然语言处理技术中,多头注意力机制(Multi

Head Attention)作 为Transformer的主要结构之一,具备强大的文本局部和全局信息的捕获 能力,是Transformer强大能力的保证。不同于RNN、LSTM等序列编码 网络具备天然顺序结构的学习能力,多头注意力机制不能区分文本中各个 字的位置关系。但是,对于任何一门语言,各个字在句子中的位置以及排 列顺序是非常重要的,它们不仅是一个句子的语法结构的组成部分,更是 表达语义的重要概念。
[0036]一个词语在句子中的位置或排列顺序不同,可能会使得整个句子的意 思发生改变。例如:(1)从上海飞到北京的飞机;(2)从北京飞到上海 的飞机,两句话由完全相同的字组成,但却表达了相反的含义。因此, Transformer需要额外引入位置信息编码(Positional Encoding)来帮助文 本语义学习。
[0037]例如,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:对待处理文本进行编码,得到编码后的文本数据,其中所述编码后的文本数据包括与所述待处理文本中的每个字相对应的编码数据以及与每个字对应的位置标识符ID;以及将所述编码后的文本数据输入自然语言处理模型,得到所述文本的处理结果;其中,所述对待处理文本进行编码包括:针对所述待处理文本中的每个字,生成随机的自然数,作为该字的位置ID,其中,针对所述待处理文本中的相邻字,所述相邻字的位置ID的数值之间的差值为非零自然数。2.根据权利要求1所述的方法,其中,所述待处理文本中的第一个字的位置ID被编码为随机自然数。3.根据权利要求1或2所述的方法,其中,所述相邻字的位置ID的数值被编码为位置ID的数值之间的差值为固定数值。4.根据权利要求1或2所述的方法,其中,所述相邻字的位置ID的数值被编码为位置ID的数值之间的差值为可变数值。5.根据权利要求1

4中的任一项所述的方法,其中,所述文本中的每个字的位置ID的数值被编码为0至预定数值之间的数值。6.根据权利要求1

5中的任一项所述的方法,其中,当所述待处理文本中的第k个字的位置ID的数值达到所述预定数值时,从第k+1个字开始,重新执行所述编码,其中,k是1至所述文本中的字的数量之间的任一数值。7.根据权利要求5所述的方法,其...

【专利技术属性】
技术研发人员:丁思宇王硕寰孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1