【技术实现步骤摘要】
一种文本提取方法及其装置
本申请涉及计算机领域,尤其涉及一种文本提取方法及其装置。
技术介绍
在日常工作和生活中,经常会涉及到文本提取,例如,在ODX、OTX开发中,需要提取odx、otx等XML文件中的某些不同的文本或变量,再对提取的这些文本或变量进行宏定义或判断等;又例如,在日常办公中,需要提取出办公文件中的某些文本,并将提取出的文本保存在一个文档中,用于编辑或查看,等等。目前,常用的一种提取文本的方法就是,从原文档中找出所有待提取的文本,然后通过复制、粘贴的形式,将待提取文本保存在另一个文档中,实现文本的提取,但是这种方法需要人工一一找出文档中包括的所有待提取文本,然后再一一复制、粘贴到新文档中,由于步骤繁琐,耗时又费力;还有一种提取文本的方法就是通过编程的方式实现,程序开发人员通过编程,从原文档中提取出所有的待提取文本,再对提出的文本进行编辑等,但是这种方法需要一定的专业技能,对一般工作人员不适用。
技术实现思路
本申请实施例提供了一种文本提取方法及其装置,能够较容易地从原文档中提取出待提 ...
【技术保护点】
1.一种文本提取方法,其特征在于,包括:/n获取文档,所述文档包括分布于所述文档的行列中的多个待提取文本和除所述多个待提取文本外的其他文本;所述待提取文本包括变量标签和变量,所述文档中的列是无限延伸的,所述文档中的每行中至多有一个所述待提取文本;/n在所述多个待提取文本前添加M个空格字符,所述M大于等于K,所述K表示所述文档内容的最大列数,所述K为一个固定值;/n删除所述文档中自第一列开始的M个列中的所有文本内容,以使各个所述待提取文本前只剩空格字符;/n在所述多个待提取文本后添加N个空格字符,所述N大于等于所述K;/n删除所述文档中自第K+1列开始的N个列中的所有文本内容 ...
【技术特征摘要】
1.一种文本提取方法,其特征在于,包括:
获取文档,所述文档包括分布于所述文档的行列中的多个待提取文本和除所述多个待提取文本外的其他文本;所述待提取文本包括变量标签和变量,所述文档中的列是无限延伸的,所述文档中的每行中至多有一个所述待提取文本;
在所述多个待提取文本前添加M个空格字符,所述M大于等于K,所述K表示所述文档内容的最大列数,所述K为一个固定值;
删除所述文档中自第一列开始的M个列中的所有文本内容,以使各个所述待提取文本前只剩空格字符;
在所述多个待提取文本后添加N个空格字符,所述N大于等于所述K;
删除所述文档中自第K+1列开始的N个列中的所有文本内容,以使各个所述待提取文本后只剩空格字符;
删除所述文档中的所有空格字符,以获得只包括所述多个待提取文本的文档。
2.根据权利要求1所述的方法,其特征在于,在所述获得只包括所述多个待提取文本的文档之后,所述方法还包括:
删除所述多个待提取文本中的所述变量标签,以获得只包括多个所述变量的文档。
3.根据权利要求1所述的方法,其特征在于,在所述获得只包括所述多个待提取文本的文档之后,所述方法还包括:
删除所述多个待提取文本中的重复项,以获得包括各不相同的多个待提取文本的文档。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过对只包括多个所述变量的文档中的多个所述变量进行编辑,实现对各个所述变量的扩展操作。
5.根据权利要求1所述的方法,其特征在于,
所述在所述多个待提取文本前添加M个空格字符之前,还包括:接收第一指令;所述第一指令用于指示第一数量M;
所述在所述多个待提取文本后添加N个空格字符之前,还包括:接收第二指令;所述第二指令用于指示第二数量N。
6.一种文本提取装置,其特征在于,包括:
获取单元,用于获取文...
【专利技术属性】
技术研发人员:刘均,周辉濂,
申请(专利权)人:深圳市元征科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。