一种基于段落语义的中小学试题分割提取方法及系统技术方案

技术编号:26505830 阅读:32 留言:0更新日期:2020-11-27 15:33
本发明专利技术公开了一种基于段落语义的中小学试题分割提取方法及系统。方法包括:读取试卷文档中每个段落的文字,采用结构语义正则表达式匹配规则分析每个段落的结构语义;采用段落结构语义编码规范记录整个试卷的段落结构,以形成段落结构语义串;对所述段落结构语义串进行结构矫正和结构划分;根据结构划分的记录,从试卷文档中提取固定格式以形成单个试题的格式化文档。本发明专利技术通过对中小学常见的大量试卷文档按结构模式进行分类归纳,抽象出几种最常见的结构模型,并设计出具有较强适应性的文档结构分析方法,进而实现了对试卷文档的结构化分拆和试题信息分割提取,具有较强的可扩展性和较广的试卷模型适用性。

【技术实现步骤摘要】
一种基于段落语义的中小学试题分割提取方法及系统
本专利技术涉及题库处理
,更具体的说,涉及一种基于段落语义的中小学试题分割提取方法及系统。
技术介绍
题库在各类教学测评工作中作用重大,特别是中小学教学中,对大量的试卷进行自动化的试题分割,进而实现高效的数据库管理,有重要意义。但是,中小学日常教学中对试卷文档的编辑没有统一的标准,难以采用固定模式的试题拆分策略来处理数量巨大的试卷文档。中小学试卷的文档编辑特点是,社会科学学科以文本居多,但字体设置往往有各种富文本格式,如:粗体、斜体、着重号、注音、带圈等。自然科学学科除了上述富文本格式外,还包含大量的图片、图形、公式等多媒体素材。针对中小学常用试卷文档编辑规范不统一,试题分割入库效率低下的问题,有必要开发一种基于段落语义的中小学试题分割提取方法及系统。
技术实现思路
本专利技术主要是解决现有技术中所存在的技术问题,从而提供一种基于段落语义的中小学试题分割提取方法。本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种基于段落语义的中本文档来自技高网...

【技术保护点】
1.一种基于段落语义的中小学试题分割提取方法,其特征在于,该方法包括以下步骤:/n读取试卷文档中每个段落的文字,采用结构语义正则表达式匹配规则分析每个段落的结构语义;/n采用段落结构语义编码规范记录整个试卷的段落结构,以形成段落结构语义串;/n对所述段落结构语义串进行结构矫正和结构划分;/n根据结构划分的记录,从试卷文档中提取固定格式以形成单个试题的格式化文档。/n

【技术特征摘要】
1.一种基于段落语义的中小学试题分割提取方法,其特征在于,该方法包括以下步骤:
读取试卷文档中每个段落的文字,采用结构语义正则表达式匹配规则分析每个段落的结构语义;
采用段落结构语义编码规范记录整个试卷的段落结构,以形成段落结构语义串;
对所述段落结构语义串进行结构矫正和结构划分;
根据结构划分的记录,从试卷文档中提取固定格式以形成单个试题的格式化文档。


2.根据权利要求1所述的基于段落语义的中小学试题分割提取方法,其特征在于,
在所述读取试卷文档中每个段落的文字后还包括:采用正则表达式清理规则对试卷中的每个段落文本进行清理,所述正则表达式清理规则的清理方法为针对清理目标设计一表达式集合进行,所述清理目标至少包括赋分说明和说明文本。


3.根据权利要求1所述的基于段落语义的中小学试题分割提取方法,其特征在于,
所述结构语义正则表达式匹配规则的分析方法为:
将段落的结构语义进行分类;
根据不同类型的结构语义采用对应的表达式集合进行匹配,所述表达式集合主要包括排除法、单纯匹配法和参数提取法。


4.根据权利要求1所述的基于段落语义的中小学试题分割提取方法,其特征在于,
所述段落结构语义编码规范包括段落索引、语义类型、语义关键词、内容起点、内容重点和提取索引偏移,所述试卷文档的每个段落的结构语义均符合段落结构语义编码规范,多个段落的结构语义形成段落结构语义串。


5.根据权利要求1所述的基于段落语义的中小学试题分割提取方法,其特征在于,
还包括采用段落结构语义检查规则对所述段落结构语义串进行检查的步骤,所述段落结构语义检查规则的检查方法为,根据检查目标设定表达式集合,通过表达式集合对段落结构语义串进行检查,若匹配成功则表明该检查目标存在,若匹配不成功则表明该检查目标不存在并发出警报。


6.根据权利要求1所述的基于段落语义的中小学试题分割提取方法,其特征在于,
...

【专利技术属性】
技术研发人员:杨明华刘琼肖荣彭键吴翔孙健肖小明
申请(专利权)人:湖南省侍禾教育科技有限公司
类型:发明
国别省市:湖南;43

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1