文本处理方法和文本处理装置制造方法及图纸

技术编号：30513799 阅读：19 留言：0更新日期：2021-10-27 22:55

本公开提供了一种文本处理方法，涉及人工智能领域，尤其涉及自然语言处理领域。具体实现方案为：对待处理文本进行编码，得到编码后的文本数据，其中编码后的文本数据包括与待处理文本中的每个字相对应的编码数据以及与每个字对应的位置标识符ID；以及将编码后的文本数据输入自然语言处理模型，得到文本的处理结果；对待处理文本进行编码包括：针对待处理文本中的每个字，生成随机的自然数，作为该字的位置ID，其中，针对待处理文本中的相邻字，相邻字的位置ID的数值之间的差值为非零自然数。本公开还提供了一种文本处理装置、一种电子设备、一种存储有计算机指令的非瞬时性计算机可读存储介质以及一种计算机程序产品。读存储介质以及一种计算机程序产品。读存储介质以及一种计算机程序产品。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法和文本处理装置

[0001]本公开涉及人工智能领域，尤其涉及自然语言处理领域，具体涉及一种文本处理方法、文本处理装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质、以及计算机程序产品。

技术介绍

[0002]近年来，随着自然语言处理(Natural language processing，NLP)技术的不断发展，基于大规模语料的预训练语言模型+下游任务微调的模式已逐渐成为了主流的研究模式。其中，以Transformer为基础架构的模型(例如，Bert)已几乎完全取代过去以RNN(Recurrent Neural Network)为基础架构的模型(例如，ELMo)，并且大幅提升了各类NLP任务的效果(例如，文本匹配、文本生成、情感分类、文本摘要、问答、检索等)。

技术实现思路

[0003]本公开提供了一种文本处理方法、文本处理装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质、以及计算机程序产品。
[0004]根据本公开的一方面，提供了一种文本处理方法，包括：
[0005]对待处理文本进行编码，得到编码后的文本数据，其中所述编码后的文本数据包括与所述待处理文本中的每个字相对应的编码数据以及与每个字对应的位置标识符ID；以及
[0006]将所述编码后的文本数据输入自然语言处理模型，得到所述文本的处理结果；
[0007]其中，所述对待处理文本进行编码包括：针对所述待处理文本中的每个字，生成随机的自然数，作为该字的位置ID，<...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，包括：对待处理文本进行编码，得到编码后的文本数据，其中所述编码后的文本数据包括与所述待处理文本中的每个字相对应的编码数据以及与每个字对应的位置标识符ID；以及将所述编码后的文本数据输入自然语言处理模型，得到所述文本的处理结果；其中，所述对待处理文本进行编码包括：针对所述待处理文本中的每个字，生成随机的自然数，作为该字的位置ID，其中，针对所述待处理文本中的相邻字，所述相邻字的位置ID的数值之间的差值为非零自然数。2.根据权利要求1所述的方法，其中，所述待处理文本中的第一个字的位置ID被编码为随机自然数。3.根据权利要求1或2所述的方法，其中，所述相邻字的位置ID的数值被编码为位置ID的数值之间的差值为固定数值。4.根据权利要求1或2所述的方法，其中，所述相邻字的位置ID的数值被编码为位置ID的数值之间的差值为可变数值。5.根据权利要求1
‑
4中的任一项所述的方法，其中，所述文本中的每个字的位置ID的数值被编码为0至预定数值之间的数值。6.根据权利要求1
‑
5中的任一项所述的方法，其中，当所述待处理文本中的第k个字的位置ID的数值达到所述预定数值时，从第k+1个字开始，重新执行所述编码，其中，k是1至所述文本中的字的数量之间的任一数值。7.根据权利要求5所述的方法，其...

【专利技术属性】
技术研发人员：丁思宇，王硕寰，孙宇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人