【技术实现步骤摘要】
一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法
[0001]本专利技术方法涉及计算机算法、PDF文档的内容解析和重构,特别是涉及一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法。
技术介绍
[0002]PDF是目前使用最广泛的文档格式之一,主要用于文件交换与打印等,无法与其他计算机程序进行交互。随着PDF在金融、科研、教育等领域的广泛应用,自动进行PDF文档识别并从中提取有用数据,并将其重构为容易编辑的WORD文档成为一个备受关注的问题。PDF文档主要由文本、图像、表格、公式等内容组成,其中,作为一种主要的表现形式,文本内容的还原质量对PDF文档整体的还原效果有着重要影响。
[0003]然而,在PDF文档内容的提取和还原过程中,不同于中英文等从左向右对字符进行排列的文档,维吾尔语PDF中文本字符的排列顺序为从右向左。在维吾尔语PDF文档中,有时候会掺杂部分中英文字符、阿拉伯数字字符等从左向右排列的字符,从而导致还原后WORD文档中的部分字符出现乱序的问题,进而影响文档的可读性。
...
【技术保护点】
【技术特征摘要】
1.一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法,包括步骤:S1)输入PDF文件,利用PDFMiner对文本中的内容进行解析,获取PDF中所有元素的信息;S2)对PDF中所有元素的信息进行过滤,从中提取出文本内容所对应的信息,在提取时,元素类型为“char”的元素即为文本所对应的内容;S3)在获取所有PDF文档中所有页面的文本元素后,对文本进行行合并;S4)若是维吾尔语字,所有维吾尔语字符的排列顺序进行反转,否则中文、英文、阿拉伯语等字符的排序与其在PDF文档中的x0坐标值大小一致,即都是从左向右的方向,中文、英文、阿拉伯语等字符可以按照正常顺序进行排列;S41)对每一行中的所有字符进行检测,查找出每一行中连续存在的从左向右的字符,字符判断的方法为:如果该字符的编码范围符合如下条件,则该字符为从左向右显示的字符:\u4e00<=c<=\u9fff#中文字符\u0021<=c<=\u007e#英文字符\u00c0<=c<=\u02af#拉丁文字符\u1e00<=c<=\u1eff如果字符c是阿拉伯数字或者属于“,。?!:”中的一种,则该字符也是从左向右显示的字符;S42)将每一行中的连续的从左向右的字符进行组合,构成一个文本块text_unit,该文本块的文本为所有字符从左向右的组合;S43)在获取文本块的字符内容以及其坐标位置后,对文本块中所有字符的顺序进行反转;S5)将所有从左向右的字符组合成文本块,并将文本块中的字符进行反转,将每一行中的所有字符进行合并,从而得到每一行所对应的行文本和该行文本的坐标位置,文本行坐标计算方法为:计算行文本的坐标位置(l_x0,l_y0,l_x1,l_y1),其中整行文本最左侧的坐标位置l_x0即为最左侧字符的坐标x0,整行文本的底部坐标位置l_y0则为该行中所有字符的y0坐标出现频率最高的值,整行文本最右侧的坐标l_x1,即为该行最右侧字符的坐标x1,而整行文本顶部的坐标l_y1则为该行中所有字符的y1坐标出现频率最高的值;S6)在得到每一行的行文本后,将每一行文本中的所有字符按顺序进行反转,从而得到所有字符按从右向左进行排序的文本行,该文本行即为维吾尔语文档所对应的文本行;S7)将步骤S6)得到的文本行按照从右向左的格式插入到DOCX文档中对应的行坐标位置。2.根据权利要求1所述的一种维吾尔语...
【专利技术属性】
技术研发人员:邓彪,翟飞飞,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。