一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法技术

技术编号：37974670 阅读：42 留言：0更新日期：2023-06-30 09:49

本发明专利技术方法提供一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法，利用PDFMiner抽取出PDF文档中所有的元素信息，进而从中提取出所有文本内容，然后对所有文本按行排序后依照从右向左的顺序进行排版。将筛选出所有的中英文字符、阿拉伯数字等从左向右排序的文本字符，并按照从左向右的顺序对其进行排序。最终我们将所有字符按对应格式插入到WORD文档中，从而使得重构后维吾尔语文档的内容与原始文档保持更高的一致性。本发明专利技术方法可以自动检测和提取维吾尔语PDF文档中从左向右表示的字符，然后将其按照从左向右的顺序插入到DOCX文件中的对应位置，从而使目标文档的排版尽量与原始文档保持一致。版尽量与原始文档保持一致。版尽量与原始文档保持一致。

全部详细技术资料下载

【技术实现步骤摘要】
一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法

[0001]本专利技术方法涉及计算机算法、PDF文档的内容解析和重构，特别是涉及一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法。

技术介绍

[0002]PDF是目前使用最广泛的文档格式之一，主要用于文件交换与打印等，无法与其他计算机程序进行交互。随着PDF在金融、科研、教育等领域的广泛应用，自动进行PDF文档识别并从中提取有用数据，并将其重构为容易编辑的WORD文档成为一个备受关注的问题。PDF文档主要由文本、图像、表格、公式等内容组成，其中，作为一种主要的表现形式，文本内容的还原质量对PDF文档整体的还原效果有着重要影响。
[0003]然而，在PDF文档内容的提取和还原过程中，不同于中英文等从左向右对字符进行排列的文档，维吾尔语PDF中文本字符的排列顺序为从右向左。在维吾尔语PDF文档中，有时候会掺杂部分中英文字符、阿拉伯数字字符等从左向右排列的字符，从而导致还原后WORD文档中的部分字符出现乱序的问题，进而影响文档的可读性。
...

【技术保护点】

【技术特征摘要】
1.一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法，包括步骤：S1)输入PDF文件，利用PDFMiner对文本中的内容进行解析，获取PDF中所有元素的信息；S2)对PDF中所有元素的信息进行过滤，从中提取出文本内容所对应的信息，在提取时，元素类型为“char”的元素即为文本所对应的内容；S3)在获取所有PDF文档中所有页面的文本元素后，对文本进行行合并；S4)若是维吾尔语字，所有维吾尔语字符的排列顺序进行反转，否则中文、英文、阿拉伯语等字符的排序与其在PDF文档中的x0坐标值大小一致，即都是从左向右的方向，中文、英文、阿拉伯语等字符可以按照正常顺序进行排列；S41)对每一行中的所有字符进行检测，查找出每一行中连续存在的从左向右的字符，字符判断的方法为：如果该字符的编码范围符合如下条件，则该字符为从左向右显示的字符：\u4e00<＝c<＝\u9fff#中文字符\u0021<＝c<＝\u007e#英文字符\u00c0<＝c<＝\u02af#拉丁文字符\u1e00<＝c<＝\u1eff如果字符c是阿拉伯数字或者属于“，。？！：”中的一种，则该字符也是从左向右显示的字符；S42)将每一行中的连续的从左向右的字符进行组合，构成一个文本块text_unit，该文本块的文本为所有字符从左向右的组合；S43)在获取文本块的字符内容以及其坐标位置后，对文本块中所有字符的顺序进行反转；S5)将所有从左向右的字符组合成文本块，并将文本块中的字符进行反转，将每一行中的所有字符进行合并，从而得到每一行所对应的行文本和该行文本的坐标位置，文本行坐标计算方法为：计算行文本的坐标位置(l_x0,l_y0,l_x1,l_y1)，其中整行文本最左侧的坐标位置l_x0即为最左侧字符的坐标x0，整行文本的底部坐标位置l_y0则为该行中所有字符的y0坐标出现频率最高的值，整行文本最右侧的坐标l_x1,即为该行最右侧字符的坐标x1，而整行文本顶部的坐标l_y1则为该行中所有字符的y1坐标出现频率最高的值；S6)在得到每一行的行文本后，将每一行文本中的所有字符按顺序进行反转，从而得到所有字符按从右向左进行排序的文本行，该文本行即为维吾尔语文档所对应的文本行；S7)将步骤S6)得到的文本行按照从右向左的格式插入到DOCX文档中对应的行坐标位置。2.根据权利要求1所述的一种维吾尔语...

【专利技术属性】
技术研发人员：邓彪，翟飞飞，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人