文本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：24854734 阅读：27 留言：0更新日期：2020-07-10 19:08

本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括：获取包括至少两个文本分词的原始文本；基于各个所述文本分词在所述原始文本中的上下文信息，确定各个所述文本分词对应的编辑方式；根据各个所述文本分词对应的编辑方式，对所述原始文本进行过滤，得到包括至少两个待改写文本分词的精简文本；根据各个所述待改写文本分词在所述精简文本中的上下文信息，确定各个所述待改写文本分词对应的目标文本分词；根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词，对所述精简文本进行编辑操作，得到改写后文本。本方法涉及人工智能技术领域，采用本方案能够提高文本处理过程中的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、计算机设备和存储介质
本申请涉及人工智能
，特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
技术介绍
随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用。而自然语言处理(NatureLanguageprocessing,NLP)是人工智能技术中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术常常被应用于文章自动摘要、文本自动纠错、机器阅读理解、文本优化等文本处理领域。在传统的文本处理方案中，通常是将原始文本输入至序列到序列(seq2seq)模型，然后逐词输出一个全新的对应于原始文本的目标文本。可以看出，在对原始文本进行文本处理时，每次都需要生成一个全新的目标文本，这使得文本处理效率不高。因此，目前的自然语言处理技术在进行文本处理时存在效率不高的问题。
技术实现思路
基于此，有必要针对目前的自然语言处理技术在进行文本改写时存在效率不高的问题，提供一种能够提高的文本处理效率的文本处理方法、装置、计算机设备和存储介质。一种文本处理方法，所述方法包括：获取原始文本；所述原始文本包括至少两个文本分词；基于各个所述文本分词在所述原始文本中的上下文信息，确定各个所述文本分词对应的编辑方式；根据各个所述文本分词对应的编...

【技术保护点】
1.一种文本处理方法，所述方法包括：/n获取原始文本；所述原始文本包括至少两个文本分词；/n基于各个所述文本分词在所述原始文本中的上下文信息，确定各个所述文本分词对应的编辑方式；/n根据各个所述文本分词对应的编辑方式，对所述原始文本进行过滤，得到精简文本；所述精简文本包括至少两个待改写文本分词；/n根据各个所述待改写文本分词在所述精简文本中的上下文信息，确定各个所述待改写文本分词对应的目标文本分词；/n根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词，对所述精简文本进行编辑操作，得到改写后文本。/n

【技术特征摘要】
1.一种文本处理方法，所述方法包括：
获取原始文本；所述原始文本包括至少两个文本分词；
基于各个所述文本分词在所述原始文本中的上下文信息，确定各个所述文本分词对应的编辑方式；
根据各个所述文本分词对应的编辑方式，对所述原始文本进行过滤，得到精简文本；所述精简文本包括至少两个待改写文本分词；
根据各个所述待改写文本分词在所述精简文本中的上下文信息，确定各个所述待改写文本分词对应的目标文本分词；
根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词，对所述精简文本进行编辑操作，得到改写后文本。

2.根据权利要求1所述的方法，其特征在于，所述基于各个所述文本分词在所述原始文本中的上下文信息，确定各个所述文本分词对应的编辑方式，包括：
获取每个所述文本分词对应的词向量；
对每个所述文本分词对应的词向量进行解码处理，确定每个所述文本分词对应的第一文本解码向量；所述第一文本解码向量包括所述文本分词在所述原始文本中的上下文信息；
根据每个所述文本分词对应的第一文本解码向量，确定每个所述文本分词对应的编辑方式。

3.根据权利要求2所述的方法，其特征在于，所述获取每个所述文本分词对应的词向量，包括：
对所述原始文本的文本内容进行分词处理，得到文本分词结果；
对所述文本分词结果中的各个文本分词进行向量化处理，确定每个所述文本分词对应的词向量。

4.根据权利要求2所述的方法，其特征在于，所述对每个所述文本分词对应的词向量进行解码处理，确定每个所述文本分词对应的第一文本解码向量，包括：
将每个所述文本分词对应的词向量按序输入至预训练的标注模型；
通过所述标注模型的解码层，依次对每个所述文本分词对应的词向量进行解码，得到每个所述文本分词对应的第一文本解码向量。

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述文本分词对应的第一文本解码向量，确定每个所述文本分词对应的编辑方式，包括：
将每个所述文本分词对应的第一文本解码向量输入至所述标注模型的分类层；
通过所述标注模型的分类层，对每个所述文本分词对应的第一文本解码向量进行分类，得到每个所述文本分词对应的分类结果；
根据每个所述文本分词对应的分类结果，生成每个所述文本分词对应的编辑方式。

6.根据权利要求1所述的方法，其特征在于，所述根据各个所述文本分词对应的编辑方式，对所述原始文本进行过滤，得到精简文本，包括：
在所述原始文本中，将所述编辑方式为删除编辑的文本分词进行删除操作，得到所述精简文本。

7.根据权利要求1所述的方法，其特征在于，所述根据各个所述待改写文本分词在所述精简文本中的上下文信息，确定各个所述待改写文本分词对应的目标文本分词，包括：
获取每个所述待改写文本分词对应的第二文本解码向量；所述第二文本解码向量包括所述待改写文本分词在所述精简文本中的上下文信息；
根据...

【专利技术属性】
技术研发人员：缪畅宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人