本发明专利技术涉及一种试题自动标注录入方法,包括:将word试题文档自动转换成对应的html文档并存储所述html文档;自动提取html文档的文本内容;采用统计模型中的n元语法模型对所述文本内容进行词语分割,使用隐马尔可夫模型对分割后的词语进行词性标注;对标注好词性的词语进行试题特征提取,判断所述词语的特征是否与预设的试题关键字的特征对应,是则对所述词语进行关键字标注及标记所述词语在文本中的位置;根据题号关键字对试题进行逐题分割;根据逐题分割好的关键字及所述关键字在文本中的位置在试题构造模块中对试题进行组装,将组装好的试题存储到对应的位置。本发明专利技术有效地提高了试题自动录入的准确率,同时解决了无法自动录入带有图片或公式的问题。
A method of marking and inputting test questions automatically
【技术实现步骤摘要】
一种试题自动标注录入方法
本专利技术涉及在线考试领域,具体涉及一种试题自动标注录入方法。
技术介绍
随着网络技术的发展,越来越多的教育培训机构采用线上考试的方式,为了适应考试规模化、科学化和标准化,建立试题库是适应考试规模化、科学化和标准化的核心,而建立试题库的第一个必不可少的环节就是试题的录入。现有的试题录入的方法有通过人工将试题录入和基于正则表达式的录入,人工录入通常是在特定的试题录入系统网页中包含有多个文本框,需分别录入相对应的内容,如一道试题的题干、答案、选项、解析等等,如果试题中包括图片和公式则还需要通过点击插入图片或公式按钮的方式进行录入,然而采用人工录入试题的方式比较繁琐,当试题数量较多时录入需要花费大量的时间,不能实现试题的批量录入。而基于正则表达式的录入方式通常采用正则表达式来提取试题中的各部分内容,由于同一类型的试题的上下结构类似,可以分别编写正则表达式来提取题干、答案、选项、解析等,进而实现试题的录入功能,但是,基于正则表达式的试题录入虽然能将试题的各个部分内容提取出来,但是此方式对源word文档中的试题格式有着严格的要求,而不同的人有着不同的编写试题的习惯,对试题格式难以统一,再者,一旦试题中含有和分割规则一致的内容时,就会被标注导致分割试题出错,如试题题干中包含有A、B、C、D字母时,可能会标注为选择题的选项,基于正则表达式的试题录入方法分割试题录入的准确度低、实用性也不高,此外,这种方式主要应用于纯文本类型的试题,无法用来提取录入包含有图片或公式的试题。
技术实现思路
本专利技术旨在克服上述现有技术中至少一种缺陷,提供一种试题自动标注录入方法,能够实现试题的批量录入且提高试题录入的准确率。本专利技术采取的技术方案是:提供一种试题自动标注录入方法,包括:S1.接收word试题文档,将word试题文档自动转换成对应的html文档并存储所述html文档;S2.自动提取html文档的文本内容;S3.对所述提取的文本内容进行词语分割及对分割后的词语进行词性标注并标注词语在文本中的位置;S4.对所述标注好词性的词语进行试题特征提取,判断所述词语的特征是否与预设的试题关键字的特征对应,是则对所述词语进行关键字标注,将标注为关键字的词语作为确定的关键字;S5.根据确定的关键字对试题进行逐题分割,并存储每道试题的关键字;S6.根据逐题分割好的关键字及所述关键字在文本中的位置在试题构造模块中对试题进行组装,并根据关键字及所述关键字在文本中的位置将组装好的试题存储到对应的位置。通过将word文档转换成html文档进行处理,可以完整的保存试题中的图片和公式,解决了无法自动录入带有图片或公式的试题文档的问题;通过采用统计模型对试题文本进行词语分割,并对分割后的词语进行词性标注,用词性作为辅助判断条件提取试题特征关键字,从而提高了试题自动分割的准确度。进一步地,所述步骤S1中将word试题文档自动转换成对应的html文档的同时还包括将文档内的公式转换成图片并记录所述图片在文档中对应的位置标签,将所述图片及其对应的位置标签与html文档存储在同一个文件夹中。进一步地,所述步骤S2中还包括提取所述图片的位置标签并在文本中标记图片的对应位置。进一步地,所述步骤S4中判断所述词语的特征是否与预设的试题关键字的特征对应具体为采用多层正则表达式对所述词语进行试题特征提取,判断所述词语是否与预设的试题关键字特征对应,是则对所述词语进行关键字标注,将标注为关键字的词语作为确定的关键字。通过多层正则表达式对所述词语进行试题特征提取并判断所述词语是否与预设的试题关键字特征对应,是则对所述词语进行关键字标注,由此可以较好地判断出试题特征,提高试题关键字标注的准确性。进一步地,所述步骤S4中还包括对所述标注为关键字的词语进行二次筛选。进一步地,所述确定的关键字包括题号、选项、答案和解析其中的一个或多个。进一步地,所述步骤S6中根据确定的关键字对试题进行逐题分割具体为以题号关键字为判断依据,若两个题号关键字之间包含了答案关键字和/或解析关键字,则对试题进行分割;若一个题号关键字和下一个题号关键字之间没有答案关键字和/或解析关键字则将下一个题号关键字标记为干扰。进一步地,对所述标注的关键字进行二次筛选具体为将单个试题中所有关键字通过随机变异算法进行关键字组合并计算所有关键字组合的分值,选取分值最高的组合的关键字作为确定的关键字。将标注的关键字通过随机变异算法对关键字进行组合和二次筛选,并计算所以关键字组合的分值,选取分值最高的组合的关键字作为确定的关键字,由此可以找出最适合的组合,提高试题特征提取的准确性。进一步地,所述步骤S6还包括将确定的关键字在不同类型的试题构造模块中进行试题组装,并计算组装之后的试题在不同类型的试题构造模块中的分值,对同一试题在不同类型的试题构造模块中的分值进行比较,将分值最高的试题构造模块的类型作为所述试题的类型,并对所述试题的类型进行标注。通过将分值最高确定的关键字在不同类型的试题构造模块进行试题组装并计算分值,将同一试题在不同类型的试题构造模块中的分值进行比较,选取分值最高的试题构造模块的类型作为所述试题的类型,提高了试题类型自动标注的准确率。进一步地,所述步骤S6还包括查找试题中的图片的位置标签,将试题中包含的图片存储到对应位置。与现有技术相比,本专利技术的有益效果为:(1)通过将word文档转换成html文档进行处理,可以完整的保存试题中的图片和公式,对图片和公式在文本中的相应位置进行标记,在调用试题时,通过索引找到图片并插入对应的位置,实现了自动录入带有图片和公式的试题文档。(2)通过采用统计模型中的n元语法模型对试题内容分词,采用隐马尔可夫模型对分割之后的词语进行词性标注。用词性作为辅助判断条件提取试题特征关键字,提高了试题自动分割的准确度。(3)通过采用多层正则表达式对所述词语进行试题特征提取,且基于词性作为判断试题关键字的依据,限定条件较为宽泛,很好的保留了试题中的各个特征,相对于单一的正则表达式的试题特征提取更加灵活。(4)通过采用随机变异算法分割后的单个试题关键字特征进行组合和二次筛选,选取分值最高的关键字组合,提高了试题特征提取的准确度,将每个试题关键字的分值最高的组合在不同类型的试题构造模块中进行试题组装,选取分值最高的试题构造模块的类型作为所述试题的类型,提高了试题类型自动标注的准确率。附图说明图1为本专利技术实施例的整体流程图;图2为本专利技术实施例的关键字标注的判断流程图,其中a图为题号关键字标注的判断流程图,b图为选项关键字标注的判断流程图,c图为答案关键字标注的判断流程图,d图为解析关键字标注的判断流程图;图3为本专利技术实施例试题组装的流程图。具体实施方式本专利技术附图仅用于示例性说明,不能理解为对本专利技术的限制。为了更好说明以下实施例,附图某些部件会有本文档来自技高网...
【技术保护点】
1.一种试题自动标注录入方法,其特征在于,包括:/nS1.接收word试题文档,将word试题文档自动转换成对应的html文档并存储所述html文档;/nS2.自动提取html文档的文本内容;/nS3.对所述提取的文本内容进行词语分割及对分割后的词语进行词性标注并标注词语在文本中的位置;/nS4.对所述标注好词性的词语进行试题特征提取,判断所述词语的特征是否与预设的试题关键字的特征对应,是则对所述词语进行关键字标注,将标注为关键字的词语作为确定的关键字;/nS5.根据确定的关键字对试题进行逐题分割,并存储每道试题的关键字;/nS6.根据逐题分割好的关键字及所述关键字在文本中的位置在试题构造模块中对试题进行组装,并根据关键字及所述关键字在文本中的位置将组装好的试题存储到对应的位置。/n
【技术特征摘要】
1.一种试题自动标注录入方法,其特征在于,包括:
S1.接收word试题文档,将word试题文档自动转换成对应的html文档并存储所述html文档;
S2.自动提取html文档的文本内容;
S3.对所述提取的文本内容进行词语分割及对分割后的词语进行词性标注并标注词语在文本中的位置;
S4.对所述标注好词性的词语进行试题特征提取,判断所述词语的特征是否与预设的试题关键字的特征对应,是则对所述词语进行关键字标注,将标注为关键字的词语作为确定的关键字;
S5.根据确定的关键字对试题进行逐题分割,并存储每道试题的关键字;
S6.根据逐题分割好的关键字及所述关键字在文本中的位置在试题构造模块中对试题进行组装,并根据关键字及所述关键字在文本中的位置将组装好的试题存储到对应的位置。
2.根据权利要求1所述的一种试题自动标注录入方法,其特征在于,所述步骤S1中将word试题文档自动转换成对应的html文档的同时还包括将文档内的公式转换成图片并记录所述图片在文档中对应的位置标签,将所述图片及其对应的位置标签与html文档存储在同一个文件夹中。
3.根据权利要求2所述的一种试题自动标注录入方法,其特征在于,所述步骤S2中还包括提取所述图片的位置标签并在文本中标记图片的对应位置。
4.根据权利要求1所述的一种试题自动标注录入方法,其特征在于,所述步骤S4中判断所述词语的特征是否与预设的试题关键字的特征对应具体为采用多层正则表达式对所述词语进行试题特征提取,判断所述词语是否与预设的试题关键字特征对应,是则对所述词语进行关键字标...
【专利技术属性】
技术研发人员:杨立春,夏德虎,张志发,赵梦凯,巩稼民,蒋杰伟,张凯泽,杨红蕊,马豆豆,刘爱萍,
申请(专利权)人:深圳市企鹅网络科技有限公司,西安邮电大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。