本发明专利技术提供了一种提取文档中内容的方法和装置,本发明专利技术的方法包括:遍历多个正则表达式以匹配试题文档中的字符;匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储所述提取的字符和所述当前正则表达式相对应类别的信息。可快速将试题类文档结构化,并提取各部分内容存入数据库中。从而便于试题类文档的后续的修改、试题产品的制作等。提高了试题的再利用率,结构化的数据采用XML格式,在不改变原有文件内容的情况下,打破了以往按照固定结构进行数据录入的模式。
【技术实现步骤摘要】
本专利技术涉及数字排版领域,具体而言,涉及一种提取文档中内容的方法和装置。
技术介绍
在教育体系中,随着计算机、互联网的发展,越来越多的教育形式通过网络和电子形式应用到用户,用户可以足不出户,就可体验到网络的教学,如学习各类课程、在线测试坐寸ο互联网的教育体系,为满足大量用户通过计算机连接互联网,并可进行在线测试。需要制作电子试题库,电子试题库内存储大量的电子试题,这些电子试题文档录入以后,用户可通过互联网进行在线测试,但一套试题经过使用后,就不在有保密性,需要修改试题。试题的修改都是在部分修改,以提高试题的重复利用及制作的效率。试题文档通常存储在数据库中,对于当前海量的非结构化试题,现有的录入过程,是通过用户使用计算机录入试题。专利技术人发现,试题的数据量比较多,由于非结构化的试题文件只能采用人工录入的方式录入,由于存在无法将数据文档实现结构化录入的问题,导致在录入过程、以及后续的提取、修改试题的部分内容困难,用户存在录入时间长、后期修改过程复杂。
技术实现思路
本专利技术旨在提供一种提取文档中内容的方法和装置,以解决无法将数据文档实现结构化录入的问题。在本专利技术的实施例中,提供了一种提取文档中内容的方法。包括遍历多个正则表达式以匹配试题文档中的字符;匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储所述提取的字符和所述当前正则表达式相对应类别的信息。进一步地,所述提取之前,还包括建立匹配表,所述匹配表中存储有所述各个正则表达式及其相对应类别的信息。进一步地,所述类别的信息包括以下至少一个题目、题干、答案、解析或选项。进一步地,所述存储之前包括在所述类别的信息之间建立从属关系。进一步地,所述存储的过程包括将所述题目作为父节点存储,同时存储对应的标识、及提取的字符;将所述题干、答案、选项、解析中的至少一个作为子节点,并存储所述子节点对应的标识、其对应提取的字符、及其父节点标识。进一步地,所述父节点、相关联的子节点、及其对应标识和提取的字符作为一条记录,所述记录存储到数据库中。进一步地,还包括在所述存储过程中,将音频、视频或图片作为主节点的属性数据一同存储。在本专利技术的实施例中,还提供了一种提取文档中内容的装置,包括匹配单元,用于遍历多个正则表达式以匹配试题文档中的字符;提取单元,用于匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储单元,用于存储所述提取的字符和所述当前正则表达式相对应类别的信息。进一步地,节点关系单元,用于通过存储单元将所述题目作为父节点存储,同时存储对应的标识、及提取的字符;将所述题干、答案、选项、解析中的至少一个作为子节点,并存储所述子节点对应的标识、其对应提取的字符、及其父节点标识。进一步地,属性单元,用于在所述存储过程中,将音频、视频或图片作为主节点的属性数据一同存储。从以上的描述中可以看出,本专利技术上述的实施例实现了如下技术效果可快速将试题类文档结构化,并提取各部分内容存入数据库中。从而便于试题类文档的后续的修改、试题产品的制作等。提高了试题的再利用率,结构化的数据采用XML格式,对题干、选项、答案线、答案、解析等进行详细划分,这样对这些试题提取或者组卷的时候可以任意的组合、修改、样式套用。在不改变原有文件内容的情况下,打破了以往按照固定结构进行数据录入的模式。另外,可以随时选择试题进行多渠道的发布。比如试卷打印,教材出版,网页展示,手机阅读等。不论纸面出版还是各种电子设备和浏览器需要的数据格式都是不同的。发布的内容也可有多种形式,可满足考生和教师的试卷不完全相同的,教师的试卷中带有试题的答案和解析。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I示出了实施例一的流程图;图2示出了实施例二的流程图;图3示出了实施例二中存储过程的流程图;图4示出了实施例三的装置结构框图。具体实施例方式下面将参考附图并结合实施例,来详细说明本专利技术。本专利技术实施例,通过正则表达式遍历试题文档中的内容,以将试题文档结构化,并提取里面的内容。参见图1,包括以下步骤Sll :遍历多个正则表达式以匹配试题文档中的字符;可预先定义多个正则表达式,例如,定义数字型字符串,以匹配题干的开始处。通常题干的开始处为数字和空格或数字和特定字符等形式,特定字符如字符”或“、”等,通过这些字符,可快速匹配到题干的开始位置。选项通常以字母开始,或通过字母与特定字符结合,如将字母置于圆括号“O”中,或字母后添加空格等。另外,除了标准的正则表达式以夕卜,还可以支持根据文字的格式、样式来匹配。例如〈识别标志>〈忽略题号value = " True " />例如〈识别标志>〈忽略题号value = " True " />〈包含选项中的字母和符号value= " True" />< 试题 value = " \d+ " display ="数字 + 点(例:1· , 2. , 3· ) " />〈子试题value = " 〃 display = "数字 + 括号(例(1), (2),⑶)"/>< 选项 value = " " display = " A. , B. , C. , D. , E. , F. " />< 答案 value ="答案"display ="答案"/>< 解析 value ="解析"display ="解析"/>〈答案线value="文字下划线"display ="文字下划线"/>〈内部序号value="数字+文字下划线"display ="数字+文字下划线"/></识别标志>S12 :匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;例如在试题文档中存在以下字符I.将10米长的铁丝平均分为5段,每段_米。(A) 2 米(B) I. 5 米(C) 2. 5 米(D) 3 米答案A2 米。解析10米除以5,等于2米。通过预先定义的正则表达式,在试题文档的起始位置,首先会匹配字符串“I. ”以表明匹配到题干,在后续的匹配过程中,又会匹配到字符串“㈧”,以表明匹配到选项。提取从字符串“I. ”开始至与下一个正则表达式中字符串相匹配的字符“ (A) ”之前的字符,即字符内容“将10米长的铁丝平均分为5段,每段_米。”。从而提取到题干内容。进而还可通过正则表达式匹配到选项、答案等内容。S13:存储所述提取的字符和所述当前正则表达式相对应类别的信息。每个正则表达式都会具有一个类别,例如题目、题干、选项、答案或解析等,这些类别信息会随匹配后,提取到的字符一同存储。通过上述的过程,可将试题文档结构化处理,以便存储到数据库中。便于后续的录入过程、以及提取、修改试题的部分内容,可提高录入速度、后续的试题修改、制作过程。上面详细说明了实施例一,将这些试题结构后,存储到数据库时,可将每道题作为一条记录存本文档来自技高网...
【技术保护点】
一种提取文档中内容的方法,其特征在于,包括:遍历多个正则表达式以匹配试题文档中的字符;匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储所述提取的字符和所述当前正则表达式相对应类别的信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:宋娟,李少明,翟因为,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。