文本处理方法及装置制造方法及图纸

技术编号:36705063 阅读:12 留言:0更新日期:2023-03-01 09:25
本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取对应源语种的待处理文本;构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。通过本申请提供的文本处理方法,可以实现跨语种的文本处理,且在转换过程中是在向量维度实现,进一步提高了文本处理精准度。进一步提高了文本处理精准度。进一步提高了文本处理精准度。

【技术实现步骤摘要】
文本处理方法及装置


[0001]本申请涉及人工智能
,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展,各种深度学习框架不断的涌现;TensorFlow、PyTorch等通用型深度学习框架,应用于自然语言处理、计算机视觉、语音处理等领域,以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。跨语言自动摘要技术的研究也成为了当下重要的方向,自动摘要是解决信息爆炸问题的关键技术,而跨语言自动摘要技术可以让用户快速浏览多国文献,实现用户可以快速了解不同国家和地区的信息。现有技术中,在实现跨语言自动摘要生成时,大多数是使用pipeline形式,即文本

翻译

摘要,或文本

摘要

翻译,或者使用强化学习模型等。但是上述方案不仅存在较大的误差,而且很少考虑多语言之间的信息交互对跨语言摘要技术带来的影响。因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
[0005]获取对应源语种的待处理文本;
[0006]构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;
[0007]对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;
[0008]通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。
[0009]根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
[0010]获取模块,被配置为获取对应源语种的待处理文本;
[0011]构建模块,被配置为构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;
[0012]融合模块,被配置为对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;
[0013]解码模块,被配置为通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。
[0014]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0015]存储器和处理器;
[0016]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
[0017]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
[0018]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
[0019]本申请提供的文本处理方法,为了能够提高跨语言的文本处理精准度,可以在获取到对应源语种的待处理文本后,构建待处理文本对应的源语种编码向量,之后从编码向量维度,将源语种编码向量转换为目标语种编码向量,从而可以有效的解决跨语言的向量映射问题;之后再对源语种编码向量和目标语种编码向量融合为融合向量,最后通过融合向量进行解码处理,即可得到对应目标语种的目标文本;实现通过在编码阶段进行转换的方式完成跨语言的映射,可以有效的保证文本处理精准度。
附图说明
[0020]图1是本申请一实施例提供的一种文本处理方法的结构示意图;
[0021]图2是本申请一实施例提供的一种文本处理方法的流程图;
[0022]图3是本申请一实施例提供的一种应用于摘要生成场景中的文本处理方法的处理流程图;
[0023]图4是本申请一实施例提供的一种文本处理装置的结构示意图;
[0024]图5是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0025]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0026]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0027]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0028]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0029]跨语言自动摘要:给定一种语言的文本文档(如中文),通过算法模型得到另一种语言的(如英文)摘要文本。
[0030]跨语言自动摘要pipeline:先将A语言文本翻译成B语言文本,然后在B语言文本上
进行摘要;或者,先在A语言文本上进行摘要,然后将摘要好的文本翻译成B语言文本。
[0031]源语种:是指待处理文本默认对应的语种。
[0032]目标语种:是指不同于源语种的另一种语种,且目标语种和源语种对应的内容可以相互翻译。
[0033]待处理文本:是指需要提取摘要的文本,包括但不限于新闻、文章、小说等。
[0034]目标文本:是指通过对待处理文本进行摘要提取后,对应目标语种的摘要。
[0035]在本申请中,提供了一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
[0036]实际应用中,随着互联网技术的发展,信息的爆炸增长已成为一种常态,进而促使互联网上海量数据包含了大量的冗余和无效信息,用户如何快速有效地从中挑选出自身需要的信息变得愈发重要。尤其是在信息互通性更强的当下,用户所需求的信息不仅限于母语,可能还需要其他语言的信息才能够满足需求。因此,在人工智能领域中跨语言技术的研究也是当下重要的方向。自动摘要是解决信息爆炸问题的关键技术,跨语言自动摘要技术可以让人们快速浏览多国文献,帮助用户快速的了解不同语言和地区的信息。同时,跨语言自动摘要方法研究对于跨境电商(辅助用户进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取对应源语种的待处理文本;构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。2.根据权利要求1所述的方法,其特征在于,所述获取对应源语种的待处理文本,包括:获取对应源语种的业务文本;通过对所述业务文本进行预处理,获得对应所述源语种的所述待处理文本。3.根据权利要求1所述的方法,其特征在于,所述构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量,包括:将所述待处理文本输入至目标语言模型,通过所述目标语言模型中的编码层对所述待处理文本进行编码处理,获得所述源语种编码向量;通过所述目标语言模型中的映射器对所述源语种编码向量进行映射处理,获得所述目标语种编码向量。4.根据权利要求3所述的方法,其特征在于,所述对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量,包括:在所述目标语言模型中对所述源语种编码向量和所述目标语种编码向量进行融合,获得所述融合向量;其中,所述通过对所述融合向量进行解码处理,生成对应目标语种的目标文本,包括:通过所述目标语言模型中的解码层对所述融合向量进行解码处理,根据解码处理结果生成对应所述目标语种的目标文本。5.根据权利要求4所述的方法,其特征在于,所述通过对所述融合向量进行解码处理,生成对应目标语种的目标文本,包括:通过对所述融合向量进行解码处理,获得对应所述源语种的第一文本,以及对应所述目标语种的第二文本;响应于跨语种选择请求,在对应所述源语种的第一文本和对应所述目标语种的第二文本中,选择所述第二文本作为所述目标文本。6.根据权利要求4所述的方法,其特征在于,所述通过所述目标语言模型中的解码层对所述融合向量进行解码处理,根据解码处理结果生成对应所述目标语种的目标文本,包括:通过所述目标语言模型中的解码层,对所述融合向量中的所述源语种编码向量进行解码处理,获得对应所述源语种的初始文本;通过所述目标语言模型中的解码层,按照对齐所述初始文本的处理策略对所述融合向量中的所述目标语种编码向量进行解码处理,获得对应所述目标语种的目标文本。7.根据权利要求3

6任一项所述的方法,其特征在于,所述目标语言模型的训练,包括:获取对应所述源语种的初始样本,并通过初始语言模型中的编码层对所述初始样本进行处理,获得对应所述源语种的样本编码向量;通过所述初始语言模型中的映射器对所述样本编码向量进行处理,获得对应所述目标语种的样本映射向量;
将所述样本映射向量和所述样本编码向量进行融合,并通过所述初始语言模型中的解码层对融合结果进行处理,获得对应所述目标语...

【专利技术属性】
技术研发人员:姬子明李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1