一种可迭代优化的文档分析结果的保存方法技术

技术编号:16605511 阅读:148 留言:0更新日期:2017-11-22 15:18
本发明专利技术公开了一种可迭代优化的文档分析结果的保存方法。所述方法包括读取原始文档,将原始文档存放到指定目录下的步骤;计算各段单元的ID、MD5值并存储到一个XML文件中的步骤;机器分析步骤;将分析结果按段落ID进行标记的步骤;人工初步验证的步骤。本发明专利技术提供了到段落级别的索引能力,并且存储了机器和人工分析结果,能提供更精细的处理能力,并且大大简化了工作量。

An iterative optimization method for preserving the results of document analysis

The present invention discloses an iterative optimization method for preserving the results of document analysis. The method includes reading the original document, the original document stored in the specified directory of each unit calculation steps; ID, MD5 value and storage to a XML file in steps; machine analysis steps; according to the results of paragraph ID label step analysis; artificial preliminary verification steps. The present invention provides indexing capability to the paragraph level, and stores the machine and manual analysis results, providing finer processing capabilities and greatly simplifying the workload.

【技术实现步骤摘要】
一种可迭代优化的文档分析结果的保存方法
本专利技术文本处理
,尤其涉及一种可迭代优化的文档分析结果的保存方法。
技术介绍
通过计算机分析PDF,DOC,HTML等非纯文本格式的文档时,在进行分析前还需要很多额外步骤来提取出纯文本信息,比如进行编码转换、字体识别等,然后再对这些纯文本的信息加以分析。将这些原始文档转成XML等包含纯文本以及关联信息的文档可以有效减少这个额外步骤的工作量,将各种文本格式加以统一。但经过提取后的XML文档相比原始文档,很多时候存在一些信息上的损失,因此对原始文档也需要加以保留。随着文本处理方式的改变,从原始文档提取生成的XML文档也会有所不同,当处理过的文档数量非常大时,减少重新分析的工作量能够有效减少处理时间,从而提升效率。此外,由于现有技术进行自然语言处理的准确率还有待提升,很多时候需要对机器分析的结果人工加以修订,这些修订结果也有必要加以保存。
技术实现思路
为解决上述问题,本专利技术提供了一种可迭代优化的文档分析结果的保存方法,包括如下步骤:步骤一:读取原始文档,获取原始文档的ID,将原始文档存放到指定目录下。步骤二:对原始文档根据当前分段算法进行本文档来自技高网...
一种可迭代优化的文档分析结果的保存方法

【技术保护点】
一种可迭代优化的文档分析结果的保存方法,其特征在于,包括如下步骤:步骤一:读取原始文档,获取原始文档的ID,将原始文档存放到指定目录下;步骤二:对原始文档进行分段,每段为一个段落单元;步骤三:计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号,将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中,所述XML文件与原始文档保存在相同指定目录下;步骤四:按照预定的分析方式并对各个段落单元进行机器分析;步骤五:提取各个段落单元的分析结果,每个分析结果为一个分析单元,并按段落ID进行标记;步骤六:将标记后的分析结果存放到XML文件中;步骤七:按照预定的人工修订方式对分析结果加以初步...

【技术特征摘要】
1.一种可迭代优化的文档分析结果的保存方法,其特征在于,包括如下步骤:步骤一:读取原始文档,获取原始文档的ID,将原始文档存放到指定目录下;步骤二:对原始文档进行分段,每段为一个段落单元;步骤三:计算每个段落单元的ID、MD5值、当前所采用分段算法的版本号,将各个段落单元的文本内容、ID、MD5值存储到一个XML文件中,所述XML文件与原始文档保存在相同指定目录下;步骤四:按照预定的分析方式并对各个段落单元进行机器分析;步骤五:提取各个段落单元的分析结果,每个分析结果为一个分析单元,并按段落ID进行标记;步骤六:将标记后的分析结果存放到XML文件中;步骤七:按照预定的人工修订方式对分析结果加以初步验证,并将验证结果记录在XML文件的相应分析单元中。2.如权利要求1所述的可迭代优化的文档分析结果的保存方法,其特征在于,步骤一中,指定目录的建立方式为:计算原始文档的MD5值,使用MD5的前若干位信息第一层文件夹,使用MD5值作为子文件夹名,在该子文件夹下存放原始文档和存储分析结果的XML文件,所述原始文档和XML文件的名称均为原始文档的ID。3.如权利要求1所述的可迭代优化的文档分析结果的保存方法,其特征在于,步骤二中,还需要记录各个段落单元的状态信息。4.如权利要求3所述的可迭代优化的文档分析结果的保存方法,其特征在于,步骤二中,当前段落单元的状态信息包括:是否是正文、是否是表格、是否是列表项、是否是无效段落。5.如...

【专利技术属性】
技术研发人员:林鹰罗康张鑫阳
申请(专利权)人:成都科来软件有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1