文本处理方法、装置、电子设备、及存储介质制造方法及图纸

技术编号：24518087 阅读：22 留言：0更新日期：2020-06-17 06:57

本公开实施例公开了一种文本处理方法、装置、电子设备、及存储介质，方法包括：在源文本中获取带格式的源语句；获取所述源语句中带格式的语句位置和格式内容；将所述源语句翻译成目标语句；根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。本实施例的技术方案能够使得翻译结果文本保留原富文本的丰富信息。

Text processing method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、电子设备、及存储介质
本公开实施例涉及自然语言处理
，具体涉及一种文本处理方法、装置、电子设备、及存储介质。
技术介绍
随着互联网的发展和经济全球化时代的到来，克服语言障碍、实现跨语言自由沟通的需求日益凸显。而语言障碍使大多数用户从网上获取信息的广度、深度和速度受到严重制约。随着全球化的深入发展，对机器翻译的需求日益高涨，翻译需求的内容和形式也日益丰富多样，例如很多时候需要对富文本进行翻译。我们知道，富文本是指包括格式以及各种元素的文本文档。例如含有字体类型信息、字体大小信息、以及背景颜色等格式信息的文本文档，以及含有特殊符号、超链接等元素的文本文档。现有的机器翻译一般是针对富文本的文本内容进行翻译，对文档中包含的格式和其他元素信息并不进行特殊处理，以至于翻译后的结果文本损失了原文本的部分信息。
技术实现思路
有鉴于此，本公开实施例提供一种文本处理方法、装置、电子设备、及存储介质，以保留被翻译文本的丰富信息。本公开实施例的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开实施例的实践而习得。在本公开的第一方面，本公开实施例提供了一种文本处理方法，包括：在源文本中获取带格式的源语句；获取所述源语句中带格式的语句位置和格式内容；将所述源语句翻译成目标语句；根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。在本公开的第二方面，本公开实施例还提供了一种文本处理装置，包括：源语句确定单元，用于在源文本中获取带格式的源...

【技术保护点】
1.一种文本处理方法，其特征在于，包括：/n在源文本中获取带格式的源语句；/n获取所述源语句中带格式的语句位置和格式内容；/n将所述源语句翻译成目标语句；/n根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。/n

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：
在源文本中获取带格式的源语句；
获取所述源语句中带格式的语句位置和格式内容；
将所述源语句翻译成目标语句；
根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示。

2.根据权利要求1所述的方法，其特征在于，根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示包括：
若所述源语句中带格式的语句位置表征所述源语句整体带格式，则将所述目标语句整体根据所述格式内容进行排版和渲染展示。

3.根据权利要求1所述的方法，其特征在于，根据所述语句位置和所述格式内容对所述目标语句进行排版和渲染展示包括：
若所述源语句中带格式的语句位置表征所述源语句的部分带格式，则对带格式部分的语句片段进行翻译；
将翻译结果与所述目标语句进行匹配；
根据匹配结果确定所述目标语句中所述语句片段对应的译文的位置；
对所确定的位置根据所述格式内容进行排版和渲染展示。

4.根据权利要求3所述的方法，其特征在于，将所述源语句翻译成目标语句包括：将所述源语句输入机器模型进行翻译得到所述目标语句；并且
所述对带格式部分的语句片段进行翻译包括：
将所述带格式部分的语句片段输入所述机器模型进行翻译；或
根据预定词典对所述带格式部分的语句片段进行词汇翻译。

5.根据权利要求1所述的方法，其特征在于，所述格式内容包括字体类型、背景色、行距、字符大小、超链接、高亮显示、以及预定字符串中至少一种。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定所述带格式的源语句中是否包含预定字符串；响应于确定所述带格式的源语句中包含所述预定字符串，确定所述预定字符串的类型；
并且将所述源语句翻译成目标语句包括：基于所述预定字符串的类型，将所述源语句翻译成目标语句。

7.根据权利要求6所述的方法，其特征在于，基于所述预定字符串的类型，将所述源语句翻译成目标语句包括：
若所述预定字符串属于第一类型，则
将所述源语句根据所述预定字符串的位置进行截断处理得到至少一个语句片段和所述预定字符串；
记录所述至少一个语句片段和所述预定字符串位置关系；
对所述至少一个语句片段进行翻译后，将翻译结果...

【专利技术属性】
技术研发人员：赵程绮，王明轩，李磊，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人