提取文档中内容的方法和装置制造方法及图纸

技术编号:8452983 阅读:172 留言:0更新日期:2013-03-21 15:51
本发明专利技术提供了一种提取文档中内容的方法和装置,本发明专利技术的方法包括:遍历多个正则表达式以匹配试题文档中的字符;匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储所述提取的字符和所述当前正则表达式相对应类别的信息。可快速将试题类文档结构化,并提取各部分内容存入数据库中。从而便于试题类文档的后续的修改、试题产品的制作等。提高了试题的再利用率,结构化的数据采用XML格式,在不改变原有文件内容的情况下,打破了以往按照固定结构进行数据录入的模式。

【技术实现步骤摘要】

本专利技术涉及数字排版领域,具体而言,涉及一种提取文档中内容的方法和装置
技术介绍
在教育体系中,随着计算机、互联网的发展,越来越多的教育形式通过网络和电子形式应用到用户,用户可以足不出户,就可体验到网络的教学,如学习各类课程、在线测试坐寸ο互联网的教育体系,为满足大量用户通过计算机连接互联网,并可进行在线测试。需要制作电子试题库,电子试题库内存储大量的电子试题,这些电子试题文档录入以后,用户可通过互联网进行在线测试,但一套试题经过使用后,就不在有保密性,需要修改试题。试题的修改都是在部分修改,以提高试题的重复利用及制作的效率。试题文档通常存储在数据库中,对于当前海量的非结构化试题,现有的录入过程,是通过用户使用计算机录入试题。专利技术人发现,试题的数据量比较多,由于非结构化的试题文件只能采用人工录入的方式录入,由于存在无法将数据文档实现结构化录入的问题,导致在录入过程、以及后续的提取、修改试题的部分内容困难,用户存在录入时间长、后期修改过程复杂。
技术实现思路
本专利技术旨在提供一种提取文档中内容的方法和装置,以解决无法将数据文档实现结构化录入的问题。在本专利技术的实施例中,提供了本文档来自技高网...

【技术保护点】
一种提取文档中内容的方法,其特征在于,包括:遍历多个正则表达式以匹配试题文档中的字符;匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储所述提取的字符和所述当前正则表达式相对应类别的信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋娟李少明翟因为
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1