System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 可复制蒙文的可携带文件格式文件输出方法技术_技高网

可复制蒙文的可携带文件格式文件输出方法技术

技术编号:40098084 阅读:5 留言:0更新日期:2024-01-23 17:15
本发明专利技术涉及可携带文件格式文件转换领域,尤其涉及一种可复制蒙文的可携带文件格式文件输出方法,该方法包括:获取可编辑文本中的蒙文信息;基于与蒙文字形索引库对应的字符索引规则,基于蒙文字形信息、蒙文字体信息以及蒙文坐标信息,确定与目标蒙文段落对应的键值对字符串;生成与可编辑文本对应的PDF文件,PDF文件中包括PDF蒙文段落。在获取蒙文信息的情况下,基于蒙文字形索引库中的内容进行内容分析,以生成对应蒙文段落的键值对字符串,并在生成文件的过程中,对相应的键值对字符串进行保留,在后续的文字复制过程当中,即可对应键值对字符串进行文字复制,以实现对于蒙文文档内容的正确识别与复制。

【技术实现步骤摘要】

本申请涉及可携带文件格式(portable document format)文件转换领域,特别涉及一种可复制蒙文的可携带文件格式文件输出方法


技术介绍

1、在日常工作使用文本的过程中,使用者通常会将可编辑文档转换为转存成pdf文件用于传送阅读。

2、相关技术中,在生成pdf文件后,部分pdf阅读软件或pdf处理软件可以基于图像识别,对于pdf文件中的文字进行重新提取,以识别并输出pdf文件当中的文字。

3、然而,在蒙文文件当中,由于蒙文文字中存在的规则,在书写部分文字时,相邻的两个字符在组合时会共同产生形变,相关技术中无法识别此类形变,并输出正确的文档内容。


技术实现思路

1、本专利技术的目的在于克服现有技术的不足与缺陷,提供了一种可复制蒙文的可携带文件格式文件输出方法,使得复制pdf文件内的蒙文的输出内容准确。该方法应用于计算机设备中,该方法包括:

2、获取可编辑文本中的蒙文信息,蒙文信息包括蒙文字形信息、蒙文字体信息以及蒙文坐标信息,蒙文信息与可编辑文本中的目标蒙文段落对应;

3、基于与蒙文字形索引库对应的字符索引规则,基于蒙文字形信息、蒙文字体信息以及蒙文坐标信息,确定与目标蒙文段落对应的键值对字符串,键值对字符串中包括至少一个键值对,键值对中包括一个键字符串以及与其对应的值字符串,键字符串用于唯一指示单位蒙古语字形,值字符串用于指示与单位蒙古语字形对应的字符宽度以及文本表征;

4、生成与可编辑文本对应的pdf文件,pdf文件中包括pdf蒙文段落,pdf蒙文段落配置有键值对字符串。

5、在一个可选的实施例中,当蒙文信息实现为蒙文坐标信息时,获取可编辑文本中的蒙文信息包括:

6、确定目标蒙文段落在可编辑文本当中的位置;

7、确定目标蒙文段落的文本宽度;

8、基于文本宽度以及位置,生成与目标蒙文段落对应的蒙文坐标信息。

9、在一个可选的实施例中,当蒙文信息实现为蒙文字形信息时,获取可编辑文本中的蒙文信息包括:

10、生成与目标蒙文段落对应的段落图片;

11、对段落图片进行图像识别,得到与目标蒙文段落对应的蒙文字形信息。

12、在一个可选的实施例中,方法还包括:

13、确定单位蒙古语字形,单位蒙古语字形包括正形单位蒙古语字形以及异形单位蒙古语字形,正形单位蒙古语字形用于唯一对应蒙古语字母,异形单位蒙古语字形用于唯一对应蒙古语字母组合,蒙古语组合中包括至少两个蒙古语字母;

14、基于单位蒙古语字形生成键字符串集合,键字符串集合中包括至少一个键字符串;

15、确定与蒙古语字母对应的值字符串结合,值字符串集合中包括至少一个值字符串;

16、基于键字符串集合以及值字符串集合,生成字符索引规则;

17、基于字符索引规则,建立蒙文字形索引库。

18、在一个可选的实施例中,确定单位蒙古语字形,包括:

19、确定蒙古语字体;

20、基于蒙古语字体确定单位蒙古语字形。

21、在一个可选的实施例中,字符索引规则包括单独索引规则、隐藏索引规则以及组合索引规则;

22、单独索引规则适配单位蒙古语字形与蒙古语字母唯一对应的情况;

23、隐藏索引规则适配单位蒙古语字形中存在蒙古语字母被省略的情况;

24、组合索引规则适配单位蒙古语字形中包括至少两个蒙古语字母的情况。

25、在一个可选的实施例中,响应于适配隐藏索引规则,方法还包括:

26、确定与被省略的蒙古语字母对应的第一值字符串;

27、确定与值字符串相邻的第二键字符串,以及与第二键字符串对应的第二值字符串;

28、将第一值字符串并入第二值字符串。

29、在一个可选的实施例中,生成与可编辑文本对应的pdf文件之后,包括:

30、接收文本选择信号,文本选择信号为对于pdf文件中的pdf蒙文段落进行选择的信号;

31、基于文本选择信号确定目标文本;

32、确定并获取与目标文本对应的键值对字符串。

33、在一个可选的实施例中,接收文本选择信号包括:

34、接收区域选择信号;

35、基于区域选择信号确定目标区域;

36、基于目标区域生成文本选择信号。

37、本申请至少包括如下有益效果:

38、在生成包括蒙文的pdf文件的过程当中,在获取蒙文信息的情况下,基于蒙文字形索引库中的内容进行内容分析,以生成对应蒙文段落的键值对字符串,并在生成pdf文件的过程中,对相应的键值对字符串进行保留,在后续的文字复制过程当中,即可对应键值对字符串进行文字复制,以实现对于蒙文文档内容的正确识别与复制。

本文档来自技高网...

【技术保护点】

1.一种可复制蒙文的可携带文件格式文件输出方法,其特征在于,所述方法应用于计算机设备中,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,当所述蒙文信息实现为蒙文坐标信息时,所述获取可编辑文本中的蒙文信息包括:

3.根据权利要求2所述的方法,其特征在于,当所述蒙文信息实现为蒙文字形信息时,所述获取可编辑文本中的蒙文信息包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述确定单位蒙古语字形,包括:

6.根据权利要求4所述的方法,其特征在于,所述字符索引规则包括单独索引规则、隐藏索引规则以及组合索引规则;

7.根据权利要求6所述的方法,其特征在于,响应于适配隐藏索引规则,所述方法还包括:

8.根据权利要求1所述的方法,其特征在于,所述生成与所述可编辑文本对应的PDF文件之后,包括:

9.根据权利要求8所述的方法,其特征在于,所述接收文本选择信号包括:

【技术特征摘要】

1.一种可复制蒙文的可携带文件格式文件输出方法,其特征在于,所述方法应用于计算机设备中,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,当所述蒙文信息实现为蒙文坐标信息时,所述获取可编辑文本中的蒙文信息包括:

3.根据权利要求2所述的方法,其特征在于,当所述蒙文信息实现为蒙文字形信息时,所述获取可编辑文本中的蒙文信息包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4...

【专利技术属性】
技术研发人员:张辰房进东张顺
申请(专利权)人:永中软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1