文件识别方法、装置、服务器和计算机存储介质制造方法及图纸

技术编号:15541944 阅读:143 留言:0更新日期:2017-06-05 11:07
本发明专利技术公开了一种文件识别方法、装置、服务器和计算机存储介质。其中,方法包括:对文件进行初步识别,得到文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。利用本发明专利技术的方案,将段落内文字的样式统一处理成一种样式,解决了文件中文字样式繁多而造成的样式膨胀问题,而且还减少了样式信息的存储量,节省了存储空间,降低了资源占用率。

File identification method, device, server and computer storage medium

The invention discloses a file identification method, a device, a server and a computer storage medium. The method includes: preliminary identification of documents, file containing text and paragraph information; for each paragraph, analyze the paragraph text, paragraph text style and get the different style of information; according to the different style of paragraphs of text information, the paragraph text style unified treatment. By using the scheme of the invention, the paragraph text into a unified style style, solve the style expansion problem file text styles caused, but also reduces the amount of storage style information, save storage space, reduce the resource utilization.

【技术实现步骤摘要】
文件识别方法、装置、服务器和计算机存储介质
本专利技术涉及互联网
,具体涉及一种文件识别方法、装置、服务器和计算机存储介质。
技术介绍
随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。然而,随着技术发展,盗版越来越猖獗,为了防止盗版,很多文件在排版时,会对文字的样式进行不同的设置,例如,一段文字中,设置多种字号和字体,以增加文件再次排版的难度,然而,很多正规渠道得到的文件也是类似文件,这样就会造成样式信息膨胀,而且还需要更大的存储空间来存储这些样式信息,占用资源。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文件识别方法、文件识别装置、服务器和计算机存储介质。根据本专利技术的一个方面,提供了一种文件识别方法,其包括:对文件进行初步识别,得到文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。根据本专利技术的另一方面,提供了一种文件识别装置,其包括:识别模块,适于对文件进行初步识别,得到文件包含的文字和段落信息;解析模块,适于针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;处理模块,适于根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。根据本专利技术的又一方面,提供了一种服务器,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行上述文件识别方法对应的操作。根据本专利技术的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述文件识别方法对应的操作。根据本专利技术提供的方案,对文件进行初步识别,得到文件包含的文字和段落信息,针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息,根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。利用本专利技术的方案,将段落内文字的样式统一处理成一种样式,解决了文件中文字样式繁多而造成的样式膨胀问题,而且还减少了样式信息的存储量,节省了存储空间,降低了资源占用率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的文件识别方法的流程示意图;图2示出了根据本专利技术另一个实施例的文件识别方法的流程示意图;图3示出了根据本专利技术一个实施例的文件识别装置的结构示意图;图4示出了根据本专利技术另一个实施例的文件识别装置的结构示意图;图5示出了根据本专利技术一个实施例的服务器的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的文件识别方法的流程示意图。如图1所示,该方法包括以下步骤:步骤S100,对文件进行初步识别,得到文件包含的文字和段落信息。对于任一文件,该文件的内容可以包含文字、图片和/或表格,该文件中的文字又可以组成若干个段落,本专利技术实施例意在对文件包含的文字的样式进行处理。在获取到一文件后,需要对文件进行初步识别,主要是为了得到文件包含的文字和段落信息,其中,段落信息主要是用于区分各段落,能够确定出文件中哪些文字属于一个段落,哪些文字属于另一个段落。对于既包含文字又包含图片和/或表格的文件,或者仅包含文字的文件但文件本身被做了特殊处理的情况时,都需要对文件进行初步识别,从中识别出文字和段落信息,具体地识别算法这里不做具体限定,本领域技术人员可以根据实际需要进行选择。步骤S101,针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息。在根据步骤S100得到文件包含的文字和段落信息后,可以确定出文件中的各个段落,以及各个段落内的文字,然后,针对每一个段落,需要对段落内的文字进行解析,这里对段落内的文字进行解析主要是为了确定段落内文字与文字之间是否有差异,主要是指文字的样式是否存在差异,在对段落内文字进行解析后,可以得到段落内文字的样式以及样式差异信息,其中,文字的样式包括:文字的字号和字体。步骤S102,根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。在得到段落内文字的样式差异信息后,可以根据段落内文字的样式差异信息,对段落内文字进行样式统一处理,也就是说,将该段落内文字的样式处理成一种样式,实现文字的样式的统一,具体地,在对段落内文字进行样式统一处理时,可以将段落内文字的样式统一处理成段落内某个文字的样式;当然,也可以将段落内文字的样式统一处理成一种不同于段落内文字的样式其他的样式,这里不做具体限定,本领域技术人员可以根据实际需要将段落内文字的样式统一处理成需要的样式。根据本专利技术上述实施例提供的方法,对文件进行初步识别,得到文件包含的文字和段落信息,针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息,根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。利用本专利技术的方案,将段落内文字的样式统一处理成一种样式,解决了文件中文字样式繁多而造成的样式膨胀问题,而且还减少了样式信息的存储量,节省了存储空间,降低了资源占用率。图2示出了根据本专利技术另一个实施例的文件识别方法的流程示意图。如图2所示,该方法包括以下步骤:步骤S200,对文件进行初步识别,得到文件包含的文字和段落信息。对于任一文件,该文件的内容可以包含文字、图片和/或表格,该文件中的文字又可以组成若干个段落,本专利技术实施例意在对文件包含的文字的样式进行处理。在获取到一文件后,需要对文件进行初步识别,主要是为了得到文件包含的文字和段落信息,其中,段落信息主要是用于区分各段落,能够确定出文件中哪些文字属于一个段落,哪些文字属于另一个段落。这里以PDF文件为例,PDF文件中可以既包含文字又包含图片和/或表格,或者仅包含文字但该PDF文件本身被做了特殊处理的情况时,都需要对文件进行初步识别,从中识别出文字和段落信息,具体地识别算法这里不做具体限定,本领域技术人员可以根据实际需要进行选择。在得到文件包含的文字和段落信息后,针对每一个段落,需要对段落内文字进行解析,具体地,对段落内除了角标以外的文字进行解析,以确定段落内文字与文字之间是否有差异,主要指文字的样式是否存在差异,其中,文字的样式包括:文字的字号和字体,具体地,将分别针对文字的字号和字体进行详细说明:步骤S201,针对每一个段落,对段落内文字进行解析,得到段本文档来自技高网...
文件识别方法、装置、服务器和计算机存储介质

【技术保护点】
一种文件识别方法,其包括:对文件进行初步识别,得到所述文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。

【技术特征摘要】
1.一种文件识别方法,其包括:对文件进行初步识别,得到所述文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。2.根据权利要求1所述的方法,其中,所述对段落内文字进行解析,得到段落内文字的样式以及样式差异信息进一步包括:对段落内文字进行解析,得到段落内文字的字号以及字号差异度;所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理进一步包括:判断段落内文字的字号差异度是否小于或等于预设字号阈值;若是,则根据段落内文字的字号确定设定字号,将段落内文字的字号统一处理为设定字号。3.根据权利要求1所述的方法,其中,所述方法还包括:预先设置多个字体集,每个字体集内的字体差异度在预设范围内;所述对段落内文字进行解析,得到段落内文字的样式以及样式差异信息进一步包括:对段落内文字进行解析,得到段落内文字的字体以及段落内文字的字体所形成的字体集合;所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理进一步包括:判断段落内文字的字体所形成的字体集合是否为预先设置的任意一个字体集的子集;若是,则根据段落内文字的字体确定设定字体,将段落内文字的字体统一处理为设定字体。4.根据权利要求2所述的方法,其中,所述根据段落内文字的字号确定设定字号进一步包括:判断段落内文字的字号与其它段落的设定字号的字号差异度是否小于或等于预设字号阈值,若是,则确定该段落的设定字号与其它段落的设定字号相同。5.根据权利要求3所...

【专利技术属性】
技术研发人员:胡元琪
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1