The invention discloses a file identification method, a device, a server and a computer storage medium. The method includes: preliminary identification of documents, file containing text and paragraph information; for each paragraph, analyze the paragraph text, paragraph text style and get the different style of information; according to the different style of paragraphs of text information, the paragraph text style unified treatment. By using the scheme of the invention, the paragraph text into a unified style style, solve the style expansion problem file text styles caused, but also reduces the amount of storage style information, save storage space, reduce the resource utilization.
【技术实现步骤摘要】
文件识别方法、装置、服务器和计算机存储介质
本专利技术涉及互联网
,具体涉及一种文件识别方法、装置、服务器和计算机存储介质。
技术介绍
随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。然而,随着技术发展,盗版越来越猖獗,为了防止盗版,很多文件在排版时,会对文字的样式进行不同的设置,例如,一段文字中,设置多种字号和字体,以增加文件再次排版的难度,然而,很多正规渠道得到的文件也是类似文件,这样就会造成样式信息膨胀,而且还需要更大的存储空间来存储这些样式信息,占用资源。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文件识别方法、文件识别装置、服务器和计算机存储介质。根据本专利技术的一个方面,提供了一种文件识别方法,其包括:对文件进行初步识别,得到文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。根据本专利技术的另一方面,提供了一种文件识别装置,其包括:识别模块,适于对文件进行初步识别,得到文件包含的文字和段落信息;解析模块,适于针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;处理模块,适于根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。根据本专利技术的又一方面,提供了一种服务器,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存 ...
【技术保护点】
一种文件识别方法,其包括:对文件进行初步识别,得到所述文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。
【技术特征摘要】
1.一种文件识别方法,其包括:对文件进行初步识别,得到所述文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。2.根据权利要求1所述的方法,其中,所述对段落内文字进行解析,得到段落内文字的样式以及样式差异信息进一步包括:对段落内文字进行解析,得到段落内文字的字号以及字号差异度;所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理进一步包括:判断段落内文字的字号差异度是否小于或等于预设字号阈值;若是,则根据段落内文字的字号确定设定字号,将段落内文字的字号统一处理为设定字号。3.根据权利要求1所述的方法,其中,所述方法还包括:预先设置多个字体集,每个字体集内的字体差异度在预设范围内;所述对段落内文字进行解析,得到段落内文字的样式以及样式差异信息进一步包括:对段落内文字进行解析,得到段落内文字的字体以及段落内文字的字体所形成的字体集合;所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理进一步包括:判断段落内文字的字体所形成的字体集合是否为预先设置的任意一个字体集的子集;若是,则根据段落内文字的字体确定设定字体,将段落内文字的字体统一处理为设定字体。4.根据权利要求2所述的方法,其中,所述根据段落内文字的字号确定设定字号进一步包括:判断段落内文字的字号与其它段落的设定字号的字号差异度是否小于或等于预设字号阈值,若是,则确定该段落的设定字号与其它段落的设定字号相同。5.根据权利要求3所...
【专利技术属性】
技术研发人员:胡元琪,
申请(专利权)人:掌阅科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。