文本处理方法、装置、电子设备、及存储介质制造方法及图纸

技术编号:24518087 阅读:22 留言:0更新日期:2020-06-17 06:57
本公开实施例公开了一种文本处理方法、装置、电子设备、及存储介质,方法包括:在源文本中获取带格式的源语句;获取所述源语句中带格式的语句位置和格式内容;将所述源语句翻译成目标语句;根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。本实施例的技术方案能够使得翻译结果文本保留原富文本的丰富信息。

Text processing method, device, electronic equipment and storage medium

【技术实现步骤摘要】
文本处理方法、装置、电子设备、及存储介质
本公开实施例涉及自然语言处理
,具体涉及一种文本处理方法、装置、电子设备、及存储介质。
技术介绍
随着互联网的发展和经济全球化时代的到来,克服语言障碍、实现跨语言自由沟通的需求日益凸显。而语言障碍使大多数用户从网上获取信息的广度、深度和速度受到严重制约。随着全球化的深入发展,对机器翻译的需求日益高涨,翻译需求的内容和形式也日益丰富多样,例如很多时候需要对富文本进行翻译。我们知道,富文本是指包括格式以及各种元素的文本文档。例如含有字体类型信息、字体大小信息、以及背景颜色等格式信息的文本文档,以及含有特殊符号、超链接等元素的文本文档。现有的机器翻译一般是针对富文本的文本内容进行翻译,对文档中包含的格式和其他元素信息并不进行特殊处理,以至于翻译后的结果文本损失了原文本的部分信息。
技术实现思路
有鉴于此,本公开实施例提供一种文本处理方法、装置、电子设备、及存储介质,以保留被翻译文本的丰富信息。本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开实施例的实践而习得。在本公开的第一方面,本公开实施例提供了一种文本处理方法,包括:在源文本中获取带格式的源语句;获取所述源语句中带格式的语句位置和格式内容;将所述源语句翻译成目标语句;根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。在本公开的第二方面,本公开实施例还提供了一种文本处理装置,包括:源语句确定单元,用于在源文本中获取带格式的源语句;位置与内容获取单元,用于获取所述源语句中带格式的语句位置和格式内容;翻译单元,用于将所述源语句翻译成目标语句;渲染单元,用于根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。在本公开的第三方面,提供了一种电子设备。该电子设备包括:处理器;以及存储器,用于存储可执行指令,所述可执行指令在被所述处理器执行时使得所述电子设备执行第一方面中的方法。在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中的方法。本公开实施例通过在源文本中获取带格式的源语句,获取所述源语句中带格式的语句位置和格式内容;将所述源语句翻译成目标语句;根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示,能够使得翻译结果文本保留原富文本的丰富信息。附图说明为了更清楚地说明本公开实施例中的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本公开实施例中的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本公开实施例的内容和这些附图获得其他的附图。图1是本公开实施例提供的一种文本处理方法的流程示意图;图2是本公开实施例提供的另一种文本处理方法的流程示意图;图3是本公开实施例提供的又一种文本处理方法的流程示意图;图4是本公开实施例提供的又一种文本处理方法的流程示意图;图5是本公开实施例提供的一种文本处理装置的结构示意图;图6是本公开实施例提供的另一种文本处理装置的结构示意图;图7示出了适于用来实现本公开实施例的电子设备的结构示意图。具体实施方式为使本公开实施例解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本公开实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本公开实施例中的一部分实施例,而不是全部的实施例。基于本公开实施例中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开实施例保护的范围。需要说明的是,本公开实施例中术语“系统”和“网络”在本文中常被可互换使用。本公开实施例中提到的“和/或”是指包括一个或更多个相关所列项目的任何和所有组合。本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。还需要说明是,本公开实施例中下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本公开实施例对此不作具体限制。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下面结合附图并通过具体实施方式来进一步说明本公开实施例的技术方案。图1示出了本公开实施例提供的一种文本处理方法的流程示意图,本实施例可适用于待翻译的源文本中带格式的情况,该方法可以由配置于电子设备中的文本处理装置来执行,如图1所示,本实施例所述的文本处理方法包括:在步骤S110中,在源文本中获取带格式的源语句,若源文本中某源语句带格式,或者某源语句的部分内容(称为语句片段)带格式,则获取该带格式的源语句。在步骤S120中,获取所述源语句中带格式的语句位置和格式内容。其中,所述格式内容包括字体类型、背景色、行距、字符大小、超链接、高亮显示、以及预定字符串等。在步骤S130中,将所述源语句翻译成目标语句。其中,对所述源语句进行翻译时,可采用机器模型进行翻译,将所述源语句输入机器模型进行翻译得到所述目标语句。在步骤S140中,根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。例如,若所述源语句中带格式的语句位置表征所述源语句整体带格式,则将所述目标语句整体根据所述格式内容进行排版和渲染展示。又如,若所述源语句中带格式的语句位置表征所述源语句的部分带格式,则对带格式部分的语句片段进行翻译,将翻译结果与所述目标语句进行匹配,根据匹配结果确定所述目标语句中所述语句片段对应的译文的位置,对所确定的位置根据所述格式内容进行排版和渲染展示。本实施例并不限定所述机器模型的具体类型,例如基于序列到序列模型、基于注意力机制的神经机器翻译模型、基于神经网络的深度学习模型等。对带格式部分的语句片段进行翻译时,也可采用机器模型进行翻译(包括但不限于采用上述用于翻译源语句的机器模型),也可采用预定词典进行词汇翻译。本公开实施例通过在源文本的翻译文本中对带格式内容对应的译文部分进行排版和渲染展示,以在源文本的翻译结果中保留源文本的丰富信息,能够使得翻译结果文本保留原富文本的丰富信息。图2示出了本公开实施例提供的另一种文本处理方法的流程示意图,本实施例以前述实施例为基础,进行了改进优化。如图2所示,本实施例所述的文本处理方法包括:在步骤S210中,在源文本中获取带格式的源语句,获取所述源语句中带格式的语句位置和格式内容,其中所述格式内容为超链接。在步骤S220中,将所述源语句翻译成目标语句;根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。在步骤S230中,获取所述链链接指向的第二源文本,将所述第二源文本翻译成第二目标文本。在步骤S240中,将所述目标文本中所述超链接对应的译文以超链接的方式指向所述第二目本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n在源文本中获取带格式的源语句;/n获取所述源语句中带格式的语句位置和格式内容;/n将所述源语句翻译成目标语句;/n根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
在源文本中获取带格式的源语句;
获取所述源语句中带格式的语句位置和格式内容;
将所述源语句翻译成目标语句;
根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。


2.根据权利要求1所述的方法,其特征在于,根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示包括:
若所述源语句中带格式的语句位置表征所述源语句整体带格式,则将所述目标语句整体根据所述格式内容进行排版和渲染展示。


3.根据权利要求1所述的方法,其特征在于,根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示包括:
若所述源语句中带格式的语句位置表征所述源语句的部分带格式,则对带格式部分的语句片段进行翻译;
将翻译结果与所述目标语句进行匹配;
根据匹配结果确定所述目标语句中所述语句片段对应的译文的位置;
对所确定的位置根据所述格式内容进行排版和渲染展示。


4.根据权利要求3所述的方法,其特征在于,将所述源语句翻译成目标语句包括:将所述源语句输入机器模型进行翻译得到所述目标语句;并且
所述对带格式部分的语句片段进行翻译包括:
将所述带格式部分的语句片段输入所述机器模型进行翻译;或
根据预定词典对所述带格式部分的语句片段进行词汇翻译。


5.根据权利要求1所述的方法,其特征在于,所述格式内容包括字体类型、背景色、行距、字符大小、超链接、高亮显示、以及预定字符串中至少一种。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述带格式的源语句中是否包含预定字符串;响应于确定所述带格式的源语句中包含所述预定字符串,确定所述预定字符串的类型;
并且将所述源语句翻译成目标语句包括:基于所述预定字符串的类型,将所述源语句翻译成目标语句。


7.根据权利要求6所述的方法,其特征在于,基于所述预定字符串的类型,将所述源语句翻译成目标语句包括:
若所述预定字符串属于第一类型,则
将所述源语句根据所述预定字符串的位置进行截断处理得到至少一个语句片段和所述预定字符串;
记录所述至少一个语句片段和所述预定字符串位置关系;
对所述至少一个语句片段进行翻译后,将翻译结果...

【专利技术属性】
技术研发人员:赵程绮王明轩李磊
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1