【技术实现步骤摘要】
文本处理方法及装置
[0001]本申请涉及人工智能
,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。
技术介绍
[0002]人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展,各种深度学习框架不断的涌现;TensorFlow、PyTorch等通用型深度学习框架,应用于自然语言处理、计算机视觉、语音处理等领域,以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。跨语言自动摘要技术的研究也成为了当下重要的方向,自动摘要是解决信息爆炸问题的关键技术,而跨语言自动摘要技术可以让用户快速浏览多国文献,实现用户可以快速了解不同国家和地区的信息。现有技术中,在实现跨语言自动摘要生成时,大多数是使用pipeline形式,即文本
‑
翻译
‑
摘要,或文本
‑
摘要
‑
翻译,或者使用强化学习模型等。但是上述方案不仅存在较大的误差,而且很少考虑多语言之间的信息交互对跨语言摘要技术带来的影响。因此亟需一种有效的方案以解决上述问题。
技术实现思路
[0003]有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取对应源语种的待处理文本;构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量;对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量;通过对所述融合向量进行解码处理,生成对应目标语种的目标文本。2.根据权利要求1所述的方法,其特征在于,所述获取对应源语种的待处理文本,包括:获取对应源语种的业务文本;通过对所述业务文本进行预处理,获得对应所述源语种的所述待处理文本。3.根据权利要求1所述的方法,其特征在于,所述构建所述待处理文本对应的源语种编码向量,并将所述源语种编码向量转换为目标语种编码向量,包括:将所述待处理文本输入至目标语言模型,通过所述目标语言模型中的编码层对所述待处理文本进行编码处理,获得所述源语种编码向量;通过所述目标语言模型中的映射器对所述源语种编码向量进行映射处理,获得所述目标语种编码向量。4.根据权利要求3所述的方法,其特征在于,所述对所述源语种编码向量和所述目标语种编码向量进行融合,获得融合向量,包括:在所述目标语言模型中对所述源语种编码向量和所述目标语种编码向量进行融合,获得所述融合向量;其中,所述通过对所述融合向量进行解码处理,生成对应目标语种的目标文本,包括:通过所述目标语言模型中的解码层对所述融合向量进行解码处理,根据解码处理结果生成对应所述目标语种的目标文本。5.根据权利要求4所述的方法,其特征在于,所述通过对所述融合向量进行解码处理,生成对应目标语种的目标文本,包括:通过对所述融合向量进行解码处理,获得对应所述源语种的第一文本,以及对应所述目标语种的第二文本;响应于跨语种选择请求,在对应所述源语种的第一文本和对应所述目标语种的第二文本中,选择所述第二文本作为所述目标文本。6.根据权利要求4所述的方法,其特征在于,所述通过所述目标语言模型中的解码层对所述融合向量进行解码处理,根据解码处理结果生成对应所述目标语种的目标文本,包括:通过所述目标语言模型中的解码层,对所述融合向量中的所述源语种编码向量进行解码处理,获得对应所述源语种的初始文本;通过所述目标语言模型中的解码层,按照对齐所述初始文本的处理策略对所述融合向量中的所述目标语种编码向量进行解码处理,获得对应所述目标语种的目标文本。7.根据权利要求3
‑
6任一项所述的方法,其特征在于,所述目标语言模型的训练,包括:获取对应所述源语种的初始样本,并通过初始语言模型中的编码层对所述初始样本进行处理,获得对应所述源语种的样本编码向量;通过所述初始语言模型中的映射器对所述样本编码向量进行处理,获得对应所述目标语种的样本映射向量;
将所述样本映射向量和所述样本编码向量进行融合,并通过所述初始语言模型中的解码层对融合结果进行处理,获得对应所述目标语...
【专利技术属性】
技术研发人员:姬子明,李长亮,李小龙,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。