基于上下文关系且情景可选的英语单选题生成方法技术

技术编号:37100862 阅读:14 留言:0更新日期:2023-04-01 05:01
一种基于上下文关系且情景可选的英语单选题生成方法,通过从数据集提取出后续用来判断难易程度和词汇量的数据基础,然后从语料库筛选出符合词汇量和难易程度的针对预设语法的句子;再对筛选出的满足词汇量和难易程度的特定语法点的句子及其问题空缺词生成合适的备选项。本发明专利技术能够通过给定的具体特定英语情景的语料生成若干符合该情景的英语单选题,能够应用在具体英语教学过程中的试题生成、机器人的学习过程中的问题生成、问答机器人的问题生成等情景,可以减少上述情景下的重复劳动。可以减少上述情景下的重复劳动。可以减少上述情景下的重复劳动。

【技术实现步骤摘要】
基于上下文关系且情景可选的英语单选题生成方法


[0001]本专利技术涉及的是一种自然语言处理领域的技术,具体是一种基于上下文关系且情景可选的英语单选题生成方法。

技术介绍

[0002]英语单选题有着广泛的应用,如英语教学、机器人学习、问答机器人的问答等。上述应用都需要根据具体的情景生成具体合适的问题,生成问题之后还需要对生成的问题给出一套合适的评价标准。上述生成英语单选题的过程通常是繁琐的重复人工劳动,存在通过其他技术辅助自动化生成的优化空间。

技术实现思路

[0003]本专利技术针对现有技术存在的上述不足,提出一种基于上下文关系且情景可选的英语单选题生成方法,能够通过给定的具体特定英语情景的语料生成若干符合该情景的英语单选题,能够应用在具体英语教学过程中的试题生成、机器人的学习过程中的问题生成、问答机器人的问题生成等情景,可以减少上述情景下的重复劳动。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于上下文关系且情景可选的英语单选题生成方法,通过从数据集提取出后续用来判断难易程度和词汇量的数据基础,然后从语料库筛选出符合词汇量和难易程度的针对预设语法的句子;再对筛选出的满足词汇量和难易程度的特定语法点的句子及其问题空缺词生成合适的备选项。
[0006]所述的判断难易程度,通过以下判断标准实现:句子长度Len,最低频词排名Pos,词义总和Mea,成分句法分析树深度Syn,依存关系长度和Dep,困惑度Per。
[0007]所述的筛选,通过计算与特定场景的难度系数的欧氏距离实现。
[0008]所述的备选项,根据上下文关系或者依存关系,找出与空缺词有紧密关系的单词集合,使用word2vec从语料库中查找出和单词集合相近的单词集合,再在语料库中寻找和相近单词集合有紧密关系的和空缺词相近的单词集合作为单项选择备选项集合。
[0009]所述的备选项,优选进一步将单项选择备选项集合中的每个单词代入原问题的句子,在语料库中查找有无相近的用法,如果有则从备选项集合中删去,从而避免多选答案。
[0010]所述的备选项,优选通过备选项的难度评价维度,根据不同的需要从备选项中选择合适的单词作为备选项。
[0011]本专利技术涉及一种实现上述方法的系统,包括:数据预处理模块、获取问题句子模块和生成备选项模块,其中:数据预处理模块根据给定情景进行词汇量和难度两个维度的统计,获取问题句子模块根据数据预处理得到的词汇量与难度维度以及需求的问题来筛选合适的问题句子,生成备选项模块使用自然语言处理的相关技术生成备选项的同时给出备选项的评价维度,让使用者根据具体需求选择合适的备选项。技术效果
[0012]与现有技术相比,本专利技术针对所需要的特定语料情景给出定义了合适的难度分类,并且基于此难度分类从较大的语料库中获取大量难度相近的句子,用于后续的问题生成。本专利技术通过句子中各单词间的上下文关系来生成单项选择题,生成的备选项和原空词义相近具有迷惑性但又不能完全取代原空。同时生成的备选项数量多且给出了备选项的难度评分标准,对于同一个句子可以根据不同难度需求生成多个问题。
附图说明
[0013]图1为本专利技术的实施例的技术方案示意图;
[0014]图2为本专利技术的实施例的运行流程示意图;
[0015]图3为本专利技术的实施例中备选项生成模型的原理示意图。
具体实施方式
[0016]如图1所示,为本实施例涉及一种基于上下文关系且难度可控的英语单选题生成方法,包括:基于上下文关系的介词单项选择问题生成以及基于依存关系的介词以外的单项选择问题生成,下述以小学英语课本上海牛津版(一至五年级)作为选择情景,具体步骤包括:
[0017]步骤1)数据集预处理,从数据集提取出后续用来判断句子难易程度和词汇量的数据基础,具体包括:
[0018]1.1)对小学课本,统计一至五年级的单词表作为词汇集合W1。
[0019]1.2)由于单词表中并未包含所有小学五年级需要认识的单词,从Brown、BNC、COCA三个语料库中根据词频来获得扩充后的词汇集合W2。如小学五年级的要求词汇量为1500,对三个语料库分别统计词频前1500的单词,将其中至少出现过两次的单词取出为词汇集合W2;
[0020]1.3)小学五年级这一情景的词汇量集合W=W1∪W2。
[0021]1.4)统计小学五年级课本中的句子中的六个难度维度信息的平均值用于后续判断句子的难易程度,得到其特征向量Y为Y=[Y1,Y2,Y3,Y4,Y5,Y6]。
[0022]所述的六个难度维度信息包括:句子长度Len,即句子分词后所有形符的计数;最低频词排名Pos,即句子中的最低频词在语料库D中的排名;词义总和Mea,即句子中每个单词拥有的词义总和;成分句法分析树深度Syn,即句子对应的成分句法分析树深度;依存关系长度和Dep,即句子的依存结构中所有依存链的长度总和;困惑度Per:句子对应的困惑度,与句子对应的语言模型概率模型的倒数相关。一般而言句子的语言模型概率越小,困惑度越大,句子在正常运用语言时越不常出现,代表句子越难。困惑度可以通过循环神经网络也可以通过BERT等一些较新的技术得到。
[0023]步骤2)获取问题句子备选集合:对于语料库D中的大量句子,筛选出符合词汇量和难易程度的针对预设语法的句子,具体包括:
[0024]2.1)统计句子的句子长度L和句子中分词后单词在要求词汇表W中的个数num,认为threshold≦1的句子为符合需求词汇量的句子,threshold为自定义的阈值。
[0025]2.2)根据小学五年级课本中的句子中的六个难度维度信息的平均值统计句子的
难度维度:对一特定句子的难度维度写作特征向量X=[X1,X2,X3,X4,X5,X6],对所有句子的特征向量X和Y进行z

score标准化,具体为:其中:x为个体的观测值,μ为总体数据的均值,σ为总体数据的标准差,得到的结果均值为0,标准差为1。
[0026]2.3)计算特征向量间的欧氏距离作为句子难易程度相似度的判断标准,具体为:将所有句子根据Distance增序排序,取前Top位的句子为符合难易程度的句子,其中:X为句子难度系数,Y为特定场景的难度系数;Top的值根据情况自定义。
[0027]2.4)根据具体语法点用正则表达式从之前步骤筛选出的句子中筛选出符合该特定语法的句子S和问题空缺词blank。
[0028]步骤3)问题备选项的生成:对于一句筛选好的满足词汇量和难易程度的特定语法点的句子S和问题空缺词blank,生成合适的备选项,具体包括:
[0029]3.1)使用语料库D训练word2vec模型中的skip

gram模型w2v。使用训练完成的w2v模型可以查找出在训练语料库中与一个单词最相近的若干个单词。
[0030]3.2)介词类语法点的情况。介词本身的特性与其最为相关的单词往往是上下文的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文关系且情景可选的英语单选题生成系统,其特征在于,包括:数据预处理模块、获取问题句子模块和生成备选项模块,其中:数据预处理模块根据给定情景进行词汇量和难度两个维度的统计,获取问题句子模块根据数据预处理得到的词汇量与难度维度以及需求的问题来筛选合适的问题句子,生成备选项模块使用自然语言处理的相关技术生成备选项的同时给出备选项的评价维度,让使用者根据具体需求选择合适的备选项。2.根据权利要求1所述系统的基于上下文关系且情景可选的英语单选题生成方法,其特征在于,通过从数据集提取出后续用来判断难易程度和词汇量的数据基础,然后从语料库筛选出符合词汇量和难易程度的针对预设语法的句子;再对筛选出的满足词汇量和难易程度的特定语法点的句子及其问题空缺词生成合适的备选项。3.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法,其特征是,所述的判断难易程度,通过以下判断标准实现:句子长度Len,最低频词排名Pos,词义总和Mea,成分句法分析树深度Syn,依存关系长度和Dep,困惑度Per。4.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法,其特征是,所述的筛选,通过计算与特定场景的难度系数的欧氏距离实现。5.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法,其特征是,所述的备选项,根据上下文关系或者依存关系,找出与空缺词有紧密关系的单词集合,使用word2vec从语料库中查找出和单词集合相近的单词集合,再在语料库中寻找和相近单词集合有紧密关系的和空缺词相近的单词集合作为单项选择备选项集合。6.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法,其特征是,所述的备选项,进一步将单项选择备选项集合中的每个单词代入原问题的句子,在语料库中查找有无相近的用法,如果有则从备选项集合中删去,从而避免多选答案。7.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法,其特征是,所述的备选项,通过备选项的难度评价维度,根据不同的需要从备选项中选择合适的单词作为备选项。8.根据权利要求2~7中任一所述的基于上下文关系且情景可选的英语单选题生成方法,其特征是,具体包括:步骤1)数据集预处理,从数据集提取出后续用来判断句子难易程度和词汇量的数据基础,具体包括:1.1)对小学课本,统计一至五年级的单词表作为词汇集合W1;1.2)由于单词表中并未包含所有小学五年级需要认识的单词,从Brown、BNC、COCA三个语料库中根据词频来获得扩充后的词汇集合W2;如小学五年级的要求词汇量为1500,对三个语料库分别统计词频前1500的单词,将其中至少出现过两次的单词取出为词汇集合W2;1.3)小学五年级这一情景的词汇量集合W=W1∪W2;1.4)统计小学五年级课本中的句子中的六个难度维度信息的平均值用于后续判断句子的难易程度,得到其特征向量Y为Y=[Y1,Y2,Y3,Y4,Y5,Y6];步骤2)获取问题句子备选集合:对于语料库D中的大量句子,筛选出符合词汇量和难易程度的针对预设语法的句子,具体包括:2.1)统计句子的句子长度L和句子中分词后单词在要求词汇表W中的个数num,认为
threshold≦1的句子为符合需求词汇量的句子,threshold为自定义的阈值;2.2)根据小学五年级课本中的句子中的六个难度维度信息的平均值统计句子的难度维度:对一特定句子的难度维度写作特征向量X=[X1,X2,X3,X4,X5,X6],对所有句子的特征向量X和Y进行z

score标准化,具体为:其中:x为个体的观测值,μ为总体数据的均值,σ为总体数据的标准差,得到的结果均值为0,标准差为1;2.3)计算特征向量间的欧氏距离作为句子难易程度相似度的判断标准,具体为:2.3)计算特征向量间的欧氏距离作为句子难易程度相似度的判断标准,...

【专利技术属性】
技术研发人员:陈逸航李国强
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1