文本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24854734 阅读:27 留言:0更新日期:2020-07-10 19:08
本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取包括至少两个文本分词的原始文本;基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本;根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。本方法涉及人工智能技术领域,采用本方案能够提高文本处理过程中的处理效率。

【技术实现步骤摘要】
文本处理方法、装置、计算机设备和存储介质
本申请涉及人工智能
,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
技术介绍
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。而自然语言处理(NatureLanguageprocessing,NLP)是人工智能技术中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术常常被应用于文章自动摘要、文本自动纠错、机器阅读理解、文本优化等文本处理领域。在传统的文本处理方案中,通常是将原始文本输入至序列到序列(seq2seq)模型,然后逐词输出一个全新的对应于原始文本的目标文本。可以看出,在对原始文本进行文本处理时,每次都需要生成一个全新的目标文本,这使得文本处理效率不高。因此,目前的自然语言处理技术在进行文本处理时存在效率不高的问题。
技术实现思路
基于此,有必要针对目前的自然语言处理技术在进行文本改写时存在效率不高的问题,提供一种能够提高的文本处理效率的文本处理方法、装置、计算机设备和存储介质。一种文本处理方法,所述方法包括:获取原始文本;所述原始文本包括至少两个文本分词;基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。一种文本处理装置,所述装置包括:获取模块,用于获取原始文本;所述原始文本包括至少两个文本分词;标注模块,用于基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;过滤模块,用根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;确定模块,用根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;编辑模块,用于根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取原始文本;所述原始文本包括至少两个文本分词;基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取原始文本;所述原始文本包括至少两个文本分词;基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。上述文本处理方法、装置、计算机设备和存储介质,通过获取包括至少两个文本分词的原始文本,并基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;然后,再根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本;如此,在减少了原始文本中的冗余数据,使得到的精简文本在保留有原始文本原来携带的语义信息具有较小的数据量,便于后续可以准确且快速地根据精简文本中的各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词,从而可以根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,快速地生成改写后文本,实现了直接在原始文本的基础上对原始文本进行改写以生成改写后文本而无需重新逐词生成一个全新文本,降低了文本处理过程中的处理数据量,提高文本处理过程中的处理效率。附图说明图1为一个实施例中一种文本处理方法的应用环境图;图2为一个实施例中一种文本处理方法的流程示意图;图3为一个实施例中一种文本处理方法的场景示意图;图4为一个实施例中一种文本改写系统的应用环境图;图5A为一个实施例中一种应用于摘要提取场景的交互界面示意图;图5B为一个实施例中一种应用于文本纠错场景的交互界面示意图;图6为一个实施例中一种文本处理方法的编辑标记生成过程的流程示意图;图7为另一个实施例中一种文本处理方法的流程示意图;图8为一个实施例中一种标注模型的网络结构示意图;图9为一个实施例中另一种文本处理方法的流程示意图;图10为另一个实施例中另一种文本处理方法的流程示意图;图11为一个实施例中一种文本改写模型的网络结构示意图;图12为一个实施例中一种文本处理装置的结构框图;图13为一个实施例中一种文本处理装置中的标注模块的结构框图;图14为一个实施例中计算机设备的内部结构图;图15为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,计算机设备110首先获取原始文本;原始文本包括至少两个文本分词;然后,计算机设备110基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;再然后,计算机设备110根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到精简文本;精简文本包括至少两个待改写文本分词;再然后,计算机设备110根据各个待改写文本分词在精简文本中的上下文信息,确定各个待本文档来自技高网...

【技术保护点】
1.一种文本处理方法,所述方法包括:/n获取原始文本;所述原始文本包括至少两个文本分词;/n基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;/n根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;/n根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;/n根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。/n

【技术特征摘要】
1.一种文本处理方法,所述方法包括:
获取原始文本;所述原始文本包括至少两个文本分词;
基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。


2.根据权利要求1所述的方法,其特征在于,所述基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式,包括:
获取每个所述文本分词对应的词向量;
对每个所述文本分词对应的词向量进行解码处理,确定每个所述文本分词对应的第一文本解码向量;所述第一文本解码向量包括所述文本分词在所述原始文本中的上下文信息;
根据每个所述文本分词对应的第一文本解码向量,确定每个所述文本分词对应的编辑方式。


3.根据权利要求2所述的方法,其特征在于,所述获取每个所述文本分词对应的词向量,包括:
对所述原始文本的文本内容进行分词处理,得到文本分词结果;
对所述文本分词结果中的各个文本分词进行向量化处理,确定每个所述文本分词对应的词向量。


4.根据权利要求2所述的方法,其特征在于,所述对每个所述文本分词对应的词向量进行解码处理,确定每个所述文本分词对应的第一文本解码向量,包括:
将每个所述文本分词对应的词向量按序输入至预训练的标注模型;
通过所述标注模型的解码层,依次对每个所述文本分词对应的词向量进行解码,得到每个所述文本分词对应的第一文本解码向量。


5.根据权利要求4所述的方法,其特征在于,所述根据每个所述文本分词对应的第一文本解码向量,确定每个所述文本分词对应的编辑方式,包括:
将每个所述文本分词对应的第一文本解码向量输入至所述标注模型的分类层;
通过所述标注模型的分类层,对每个所述文本分词对应的第一文本解码向量进行分类,得到每个所述文本分词对应的分类结果;
根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑方式。


6.根据权利要求1所述的方法,其特征在于,所述根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本,包括:
在所述原始文本中,将所述编辑方式为删除编辑的文本分词进行删除操作,得到所述精简文本。


7.根据权利要求1所述的方法,其特征在于,所述根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词,包括:
获取每个所述待改写文本分词对应的第二文本解码向量;所述第二文本解码向量包括所述待改写文本分词在所述精简文本中的上下文信息;
根据...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1