The present invention discloses a device and method of electronic document processing, the method includes: electronic documents into HTML files, read the HTML file for each string, each string string string; according to the font size to determine the corresponding text corresponding to each title, according to read the HTML file in order to determine. The relationship between the title; each string into a text file TXT file. In the embodiment of the invention, electronic documents will be converted to HTML files, for each string, each string string string based on the font size to determine the corresponding text corresponding to each title, and each string is written to the TXT file, many tools can easily read TXT files. As a result, the content of an electronic document can be achieved without using third party software.
【技术实现步骤摘要】
一种电子文档处理的方法及装置
本专利技术涉及数据处理
,尤其涉及一种电子文档处理的方法及装置。
技术介绍
随着社会信息化的快速发展,电子文档已经成为了各个企业内的一种通用的文件媒介。我们经常需要通过电子文档传输信息,从而保障正常的工作。我们工作中经常用到的电子文档有文字处理器Word、演示文稿PowerPoint、办公软件Excel和便携式文档格式(PortableDocumentFormat、PDF)等等。现如今,我们使用的电子文档,必须使用第三方软件打开,才能获取电子文档的内容,从而限制了电子文档的传播方式。然而,如何在不使用第三方软件的情况下,获取电子文档的内容,目前还没有解决方案。
技术实现思路
本专利技术实施例提供一种电子文档处理的方法及装置,用以解决在不使用第三方软件的情况下,无法获取电子文档的内容的问题为达到上述目的,本专利技术实施例公开了一种电子文档处理的方法,应用于电子设备,包括:将电子文档转换为超文本标记语言HTML文件,读取所述HTML文件,获得所述HTML文件中包含的每个字符串;根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体 ...
【技术保护点】
一种电子文档处理的方法,其特征在于,应用于电子设备,所述方法包括:将电子文档转换为超文本标记语言HTML文件,读取所述HTML文件,获得所述HTML文件中包含的每个字符串;根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小,确定每个标题对应的字符串、每个标题中的正文对应的字符串;根据读取所述HTML文件的顺序,确定标题间的关联关系;根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将每个字符串写入文本文档TXT文件。
【技术特征摘要】
1.一种电子文档处理的方法,其特征在于,应用于电子设备,所述方法包括:将电子文档转换为超文本标记语言HTML文件,读取所述HTML文件,获得所述HTML文件中包含的每个字符串;根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小,确定每个标题对应的字符串、每个标题中的正文对应的字符串;根据读取所述HTML文件的顺序,确定标题间的关联关系;根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将每个字符串写入文本文档TXT文件。2.如权利要求1所述的方法,其特征在于,所述将每个字符串写入文本文档TXT文件之前,所述方法还包括:根据每个字符串的内容,识别目录标题对应的字符串;并根据预先保存的正文对应的字体大小,确定目录标题中的正文对应的字符串;所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将每个字符串写入文本文档TXT文件包括:根据每个标题对应的字符串、每个标题中的正文对应的字符串、标题间的关联关系,及目录标题对应的字符串和目录标题中的正文对应的字符串,将每个字符串写入文本文档TXT文件。3.如权利要求1所述的方法,其特征在于,所述标题间的关联关系包括:同一等级的标题间的前后关系及不同等级的标题间的归属关系。4.如权利要求3所述的方法,其特征在于,所述确定每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系之后,将每个字符串写入文本文档TXT文件之前,所述方法还包括:确定每个标题的标识信息及每个标题的等级,在数据库中针对每个标题,记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串;所述将每个字符串写入文本文档TXT文件包括:根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入TXT文件。5.如权利要求4所述的方法,其特征在于,所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入TXT文件之前,所述方法还包括:判断所述HTML文件中是否还存在未被识别的字符串;若存在,将所述字符串作为封面字符串并记录在数据库中;所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入TXT文件包括:根据数据库中记录的封面字符串和针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入文本文档TXT文件。6.如权利要求1所述的方法,其特征在于,所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将每个字符串写入文本文档TXT文件包括:将每个字符串转换为对象表示法JSON数据;根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将对应的JSON...
【专利技术属性】
技术研发人员:甘俊源,
申请(专利权)人:珠海格力电器股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。