当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于知识约束的MCT完形填空智能出题方法及系统技术方案

技术编号:34275923 阅读:37 留言:0更新日期:2022-07-24 17:09
本发明专利技术公开了一种基于知识约束的MCT完形填空智能出题方法及系统,方法包括:基于HSK中文水平等级和医学词典等多维复杂知识约束对医疗文本进行篇章语义解析,以筛选出符合要求的医疗文本作为出题语料;基于MCT等级的知识约束对出题语料进行考点词挖空;基于医学知识图谱、HSK中文水平等级、MCT等级等多维复杂知识约束完成干扰项生成;将题干挖空文本和题目列表组成完形填空题目进行输出。本发明专利技术针对参加MCT考试的医学专业留学生,内容聚焦在医院日常交际场景的理解、病情的沟通与交流、疾病的具体描述,通过海量的医学词典、医疗知识图谱为MCT题库智能生成提供医疗知识数据支撑,实现医学汉语资源的科学利用。实现医学汉语资源的科学利用。实现医学汉语资源的科学利用。

An intelligent method and system for MCT cloze based on knowledge constraints

【技术实现步骤摘要】
一种基于知识约束的MCT完形填空智能出题方法及系统


[0001]本专利技术属于推荐算法
,具体涉及一种基于知识约束的MCT完形填空智能出题方法及系统。

技术介绍

[0002]为满足医学专业留学生在专业学习和临床实习过程中运用中文进行交际的需求,切实提高来华留学医学教育质量,2019年12月15日,教育部中外语言交流合作中心和汉考国际联合创建的医学汉语水平考试(Medical Chinese Test,简称MCT)正式启动。MCT旨在考查留学生在医学/医疗场景中与患者、医护人员及相关人员用中文进行交际的能力,内容聚焦在医院日常交际场景的理解、病情的沟通与交流、疾病的具体描述。
[0003]然而,MCT题库资源的建设仍然停留在初级和传统阶段,至今市场上仍没有能够实现MCT完形填空题的智能生成。在信息化时代,教育与科技的融合是大势所趋,通过互联网、云技术和人工智能可以拓展MCT题库构建工程,提升MCT题库生成的智能化,实现MCT考试的提效增速。而在如今大数据时代的背景下,海量的医疗知识字典、医疗知识图谱同样可以作为医疗知识库数据支撑,为MCT题库智能生成注入新鲜活力,实现医学汉语资源的科学利用。

技术实现思路

[0004]本专利技术公开了一种基于知识约束的MCT完形填空智能出题方法及系统,包括:基于HSK中文水平等级和医学词典等多维复杂知识约束对医疗文本进行篇章语义解析,以筛选出符合要求的医疗文本作为出题语料;基于MCT等级的知识约束对出题语料进行考点词挖空;基于医学知识图谱、HSK中文水平等级、MCT等级等多维复杂知识约束完成干扰项生成;将题干挖空文本和题目列表组成完形填空题目进行输出。本专利技术针对参加MCT考试的医学专业留学生,内容聚焦在医院日常交际场景的理解、病情的沟通与交流、疾病的具体描述,海量的医学词典、医疗知识图谱为MCT题库智能生成提供医疗知识数据支撑,实现医学汉语资源的科学利用。
[0005]一方面,一种基于知识约束的MCT完形填空智能出题方法,包括以下步骤:
[0006]S1:医疗文本出题语料筛选步骤
[0007]S11:对医疗题干文本进行分词,分词结果存储于数组listOfStr中;
[0008]S12:将“中医疾病与病征编码”词典中词汇存储于数组txt中,如果listOfStr中的词汇包含于词典中,则舍弃对应的医疗题干文本;
[0009]S13:若医疗题干文本被保留,则依次遍历listOfStr中的每个词语,判断listOfStr中的每个词语是否都存在于“科室

疾病”医学词典department中;若存在,则对字典time中的相同键次数+1;
[0010]S14:遍历结束后,找出字典time中键次数最大的值,即出现次数最多的科室,将该科室名判断为题干文本的类别;若类别符合MCT出题要求,则该医疗题干文本保留;
[0011]S15:若保留医疗题干文本,将HSK中文水平等级的等级词汇“HSK”存储于数组strDict1中;
[0012]S16:依次遍历listOfStr中的每个词语,在数组strDict1中寻找词语对应的HSK中文水平等级;设当前出题对应的MCT等级值为c,其中c包括一级、二级和三级,设置MCT等级一级对应HSK1

4级、MCT等级二级对应HSK5级、MCT等级三级对应HSK6

9级;若词语对应的HSK等级超过其对应的MCT等级,则舍弃对应的医疗题干文本;
[0013]S17:若医疗题干文本被保留,则将该医疗题干文本确定为出题语料文本TextQuestion;
[0014]S2:考点词挖空步骤
[0015]S21:将MCT考试大纲中的等级词库小于当前出题MCT等级值c的词汇存储于数组strDict2中;所述等级词库包括词汇及其对应的MCT等级;
[0016]S22:判断listOfStr中的词语否存在于strDict2中,如果存在,则将该词语存储于候选挖空词组listLine中;
[0017]S23:如果候选挖空词组中词汇数量多于设定的MCT单题出题词语数量限定值n,则随机剔除词汇,保证剩余挖空词汇不多于n个,由剩余挖空词汇组成的词组为最终挖空词组;
[0018]S24:遍历最终挖空词组,对每个词在出题语料文本TextQuestion中找到该词第一处出现的位置,将该词替换为挖空字符“____”;
[0019]S23:基于完成挖空后的出题语料文本TextQuestion形成题干挖空文本;
[0020]S3:干扰项生成步骤
[0021]S31:创建题目选项数组key,遍历最终挖空词组中的词汇,每个词语依次存入数组key的第1个单元key[0];
[0022]S32:若key[0]存在于医学知识图谱中,则在该知识图谱中随机选择另外3个词语构成干扰项,并将这3个字符串存入数组key的第2至第4单元中,并将题目标注为“医学题”,将题目标注的值存入key的第5个单元中;
[0023]S33:若key[0]不存在于医学知识图谱中,则进一步判断key[0]是否存在于HSK中文水平等级词汇数组strDict1中,若存在,则在数组strDict1中随机选择另外3个词语构成干扰项,并将这3个字符串存入数组key的第2至第4单元中,将题目标注为“语法题”,将题目标注的值存入key的第5个单元中;
[0024]S34:若key[0]不存在于HSK中文水平等级词汇中,则在MCT考试大纲等级词库strDict3中随机选择另外3个词语构成干扰项,并将这3个字符串存入数组key的第2至第4单元中,将题目标注为“其它题”,将题目标注的值存入key的第5个单元中;
[0025]S4:完形填空题目输出步骤
[0026]S41:将获得与最终挖空词组的数量m一致的m个题目选项数组key作为题目列表;其中,m≤n。
[0027]S42:将题干挖空文本和题目列表组成完形填空题目进行输出。
[0028]另一方面,一种基于知识约束的MCT完形填空智能出题系统,包括:
[0029]医疗文本出题语料筛选模块,用于基于HSK中文水平等级和医学词典的知识约束对医疗文本进行篇章语义解析,筛选出符合要求的医疗文本作为出题语料;
[0030]考点词挖空模块,用于基于MCT等级的知识约束对出题语料进行考点词挖空,形成题干挖空文本;
[0031]干扰项生成模块,用于基于医学知识图谱、HSK中文水平等级和MCT等级的知识约束完成干扰项生成,获得题目列表;
[0032]完形填空题目输出模块,用于输出由题干挖空文本和题目列表组成的完形填空题目。
[0033]由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:
[0034]本专利技术针对参加MCT考试的医学专业留学生,内容聚焦在医院日常交际场景的理解、病情的沟通与交流、疾病的具体描述,海量的医学词典、医疗知识图谱为MCT题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识约束的MCT完形填空智能出题方法,包括以下步骤:S1:医疗文本出题语料筛选步骤S11:对医疗题干文本进行分词,分词结果存储于数组listOfStr中;S12:将“中医疾病与病征编码”词典中词汇存储于数组txt中,如果listOfStr中的词汇包含于词典中,则舍弃对应的医疗题干文本;S13:若医疗题干文本被保留,则依次遍历listOfStr中的每个词语,判断listOfStr中的每个词语是否都存在于“科室

疾病”医学词典department中;若存在,则对字典time中的相同键次数+1;S14:遍历结束后,找出字典time中键次数最大的值,即出现次数最多的科室,将该科室名判断为题干文本的类别;若类别符合MCT出题要求,则该医疗题干文本保留;S15:若保留医疗题干文本,将HSK中文水平等级的等级词汇“HSK”存储于数组strDict1中;S16:依次遍历listOfStr中的每个词语,在数组strDict1中寻找词语对应的HSK中文水平等级;设当前出题对应的MCT等级值为c,其中c包括一级、二级和三级,设置MCT等级一级对应HSK1

4级、MCT等级二级对应HSK5级、MCT等级三级对应HSK6

9级;若词语对应的HSK等级超过其对应的MCT等级,则舍弃对应的医疗题干文本;S17:若医疗题干文本被保留,则将该医疗题干文本确定为出题语料文本TextQuestion;S2:考点词挖空步骤S21:将MCT考试大纲中的等级词库小于当前出题MCT等级值c的词汇存储于数组strDict2中;所述等级词库包括词汇及其对应的MCT等级;S22:判断listOfStr中的词语否存在于strDict2中,如果存在,则将该词语存储于候选挖空词组listLine中;S23:如果候选挖空词组中词汇数量多于设定的MCT单题出题词语数量限定值n,则随机剔除词汇,保证剩余挖空词汇不多于n个,由剩余挖空词汇组成的词组为最终挖空词组;S24:遍历最终挖空词组...

【专利技术属性】
技术研发人员:王华珍孙雨洁姜力文林致中何霆
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1