一种基于多语种的文本合成方法和系统技术方案

技术编号：41123501 阅读：28 留言：0更新日期：2024-04-30 17:50

一种基于多语种的文本合成方法，包括：通过收集多个语种的Unicode编码范围构建每个语种的字符编码库；按用户需求构建每个语种的单词级翻译映射库；按第一预设规则构建对应的多语种的字体库；将文本语料进行过滤，将过滤后的文件进行分词处理，并记录单词频率；根据记录的单词频率选择单词合成图片，同时通过翻译库中映射出单词的翻译，将单词及翻译写入label文件中；按第二预设规则对合成的图片进行增强，重复进行批量合成，将合成的图片用于OCR训练。本发明专利技术在现有技术不能满足需求的情况下，实现合成多语种的文本图片，并且对图片进行颜色、背景，字体，模糊等处理，极大增加图片多样性，在一定程度上增加模型训练识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是自然语言处理领域，特别涉及一种基于多语种的文本合成方法和系统。

技术介绍

1、语言转换文本的原理是通过使用自然语言处理(nlp)技术来将一种语言的文本转换为另一种语言的文本。这个过程通常包括以下几个步骤：分词：将输入的文本分割成单词或词组，以便进一步处理。词性标注：为每个单词或词组标注其词性，例如名词、动词、形容词等。句法分析：分析句子的结构和语法关系，例如主语、谓语、宾语等。语义理解：理解句子的意义和上下文信息，以便更准确地进行翻译。翻译模型：使用机器翻译模型将源语言文本转换为目标语言文本。这些模型能基于统计方法、神经网络等不同的技术。合并和生成：将翻译的结果合并成一个连贯的句子，并生成最终的目标语言文本。

2、现有技术合成文本方法多用于合成常见语言，在多个语种合成方面效果不是很好，尤其是一些小语种语言，同时合成多样性不足，不能满足训练模型的多样性。

技术实现思路

1、鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于...

【技术保护点】

1.一种基于多语种的文本合成方法，其特征在于，包括：

2.如权利要求1所述的一种基于多语种的文本合成方法，其特征在于，S100中，通过收集多个语种的Unicode编码范围构建每个语种的字符编码库，字符编码库除包含每个语种固有范围外，增加特殊符号、阿拉伯数字、英文通用符号。

3.如权利要求1所述的一种基于多语种的文本合成方法，其特征在于，S300中，收集多个语种的字体文件，按预设第一规则建成对应的多语种的字体库，第一预设规则包括：收集多个语种的字体文件，通过S100构建的字符编码库验证每个字体文件能否正常显示每个字符，能正常显示的字体文件构建成语种的字体库；

...

【技术特征摘要】

1.一种基于多语种的文本合成方法，其特征在于，包括：

2.如权利要求1所述的一种基于多语种的文本合成方法，其特征在于，s100中，通过收集多个语种的unicode编码范围构建每个语种的字符编码库，字符编码库除包含每个语种固有范围外，增加特殊符号、阿拉伯数字、英文通用符号。

3.如权利要求1所述的一种基于多语种的文本合成方法，其特征在于，s300中，收集多个语种的字体文件，按预设第一规则建成对应的多语种的字体库，第一预设规则包括：收集多个语种的字体文件，通过s100构建的字符编码库验证每个字体文件能否正常显示每个字符，能正常显示的字体文件构建成语种的字体库；

4.如权利要求1所述的一种基于多语种的文本合成方法，其特征在于，s300中，s400中，获取待文本合成的语种类型，将文本语料进行过滤，将过滤后的文件进行分词处理，并记录单词频率，具体方法包括：当待文本合成的语种类型为阿拉伯语时，将文本语料使用字符编码库过滤，去掉不属于本语言的字符，以及乱码符号，过滤后的文件通过bert分词器进行分词，并记录单词频率。

5.如权利要求1所述的一种基于多语种的文本合成方法，其特征在于，s300中，s500中，根据记录的单词频率选择单词合成图片，通过翻译库中映射出单词的翻译，最后将单词及翻译写入label文件中，具体方法包括：根据每个单词出现的频率选择单词，使出现频率高的单词被选择的概率更大，字体文件采用随机的方式选择，计算字体文件书写单词的宽度及高度，创建对应大小的文本区域的空白图片，根据单词书写顺序将单词合成到空白图片，同时在翻译库中映射出单词的翻译，最后将单词及翻译写入label文件中。

6.如权利要求1所述的一种基于多语种...

【专利技术属性】
技术研发人员：周玉，邓彪，李伟超，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人