一种文档处理方法及装置制造方法及图纸

技术编号:19341844 阅读:32 留言:0更新日期:2018-11-07 13:47
本申请公开了一种文档处理方法及装置。该方法包括判定待处理文档种类;得到所述待处理文档种类判断结果;根据所述判断结果对待处理文档执行预设处理,其中,所述预设处理至少包括如下一种或两种处理方式:处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。本申请解决了原始文档的段落信息和表格信息不能完整有效解析的技术问题。

Document processing method and device

The application discloses a document processing method and device. The method includes determining the type of document to be processed, obtaining the result of judging the type of document to be processed, performing preset processing on the processed document according to the result of judging, in which the preset processing includes at least one or two processing modes: processing the document paragraph format of the document to be processed, and processing the document to be processed. Processing form information for documents. This application solves the technical problem that paragraph information and form information of the original document can not be fully and effectively parsed.

【技术实现步骤摘要】
一种文档处理方法及装置
本申请涉及计算机
,具体而言,涉及一种文档处理方法及装置。
技术介绍
随着社会的发展,纸质材料记录日益减少,各种类型的电子材料日益增多。与此同时,对于文档的智能化处理也不断丰富,有智能文档解析系统,智能文档审阅系统,智能文档比对系统等。而不同的智能文档系统基础就是各种不同格式的文档,Word格式、PDF格式、Excel格式等。这些不同的文档格式对于用户有着较大的区分,其本身也有不同的样式区分,尤其是文档中的段落信息、表格信息等。但对于计算机而言,不同的文本格式都会变成其所需要的纯文本内容,段落信息、表格信息会变成相应的字符信息,如若在解析的过程中,丧失这些携带重要信息的字符,则会导致解析出的文档没有任何格式,对后续的文档解析系统带来一定的困难。因此,将多种类型的文档有效地解析成纯文本内容是研究文档智能化的基础,能够在解析过程中保持原文档的格式(包括段落信息、表格信息等)是文档解析研究的重点内容。针对相关技术中原始文档的段落信息和表格信息不能完整有效解析的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文档处理方法及装置,以解决原本文档来自技高网...

【技术保护点】
1.一种文档处理方法,其特征在于,包括:判定待处理文档种类;得到所述待处理文档种类判断结果;根据所述判断结果对所述待处理文档执行预设处理,其中,所述预设处理至少包括如下一种或两种处理方式:处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。

【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:判定待处理文档种类;得到所述待处理文档种类判断结果;根据所述判断结果对所述待处理文档执行预设处理,其中,所述预设处理至少包括如下一种或两种处理方式:处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。2.根据权利要求1所述的文档处理方法,其特征在于,根据所述判断结果对所述待处理文档执行预设处理包括:所述判断结果为PDF待处理文档时,则提取所述PDF待处理文档中的文字信息、文字的位置信息以及线条信息;根据所述线条信息进行表格内容解析;根据所述文字信息和所述文字的位置信息进行段落解析。3.根据权利要求2所述的文档处理方法,其特征在于,所述表格内容解析包括:根据所述线条信息还原表格边框;根据所述文字信息、文字的位置信息得到所述表格文本信息。4.根据权利要求2所述的文档处理方法,其特征在于,所述段落解析包括:根据预设方法判断所述段落的当前句与下一句是否相连,其中,所述预设方法至少包括:词典匹配法、命名实体识别法和分类法。5.根据权利要求4所述的文档处理方法,其特征在于,根据所述词典匹配法判断所述段落的当前句与下一句是否相连包括:将词汇添加到所述词典中;判断所述当前句的末尾词与所述下一句的开始词是否在字典中出现;如果所述当前句的末尾词与所述下一句的开始词在字典中出现,则将所述当前句与所述下一句合并。6.根据权利要求1所述的文档处理方法,其特征在于,根据所述判断结果对所述待处理文档执行预设处理包括:所述判断结果为Word待处理文档时,则判定所述Word待处理文档的后缀名,其中,所述后缀名至少包括:.doc和.d...

【专利技术属性】
技术研发人员:安怡高翔纪达麒陈运文
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1