基于上下文关系且情景可选的英语单选题生成方法技术

技术编号：37100862 阅读：14 留言：0更新日期：2023-04-01 05:01

一种基于上下文关系且情景可选的英语单选题生成方法，通过从数据集提取出后续用来判断难易程度和词汇量的数据基础，然后从语料库筛选出符合词汇量和难易程度的针对预设语法的句子；再对筛选出的满足词汇量和难易程度的特定语法点的句子及其问题空缺词生成合适的备选项。本发明专利技术能够通过给定的具体特定英语情景的语料生成若干符合该情景的英语单选题，能够应用在具体英语教学过程中的试题生成、机器人的学习过程中的问题生成、问答机器人的问题生成等情景，可以减少上述情景下的重复劳动。可以减少上述情景下的重复劳动。可以减少上述情景下的重复劳动。

全部详细技术资料下载

【技术实现步骤摘要】
基于上下文关系且情景可选的英语单选题生成方法

[0001]本专利技术涉及的是一种自然语言处理领域的技术，具体是一种基于上下文关系且情景可选的英语单选题生成方法。

技术介绍

[0002]英语单选题有着广泛的应用，如英语教学、机器人学习、问答机器人的问答等。上述应用都需要根据具体的情景生成具体合适的问题，生成问题之后还需要对生成的问题给出一套合适的评价标准。上述生成英语单选题的过程通常是繁琐的重复人工劳动，存在通过其他技术辅助自动化生成的优化空间。

技术实现思路

[0003]本专利技术针对现有技术存在的上述不足，提出一种基于上下文关系且情景可选的英语单选题生成方法，能够通过给定的具体特定英语情景的语料生成若干符合该情景的英语单选题，能够应用在具体英语教学过程中的试题生成、机器人的学习过程中的问题生成、问答机器人的问题生成等情景，可以减少上述情景下的重复劳动。
[0004]本专利技术是通过以下技术方案实现的：
[0005]本专利技术涉及一种基于上下文关系且情景可选的英语单选题生成方法，通过从数据集提取出后续用来判断难易程度和词汇量的数据基础，然后从语料库筛选出符合词汇量和难易程度的针对预设语法的句子；再对筛选出的满足词汇量和难易程度的特定语法点的句子及其问题空缺词生成合适的备选项。
[0006]所述的判断难易程度，通过以下判断标准实现：句子长度Len，最低频词排名Pos，词义总和Mea，成分句法分析树深度Syn，依存关系长度和Dep，困惑度Per。
[0007]所述的筛选，通...

【技术保护点】

【技术特征摘要】
1.一种基于上下文关系且情景可选的英语单选题生成系统，其特征在于，包括：数据预处理模块、获取问题句子模块和生成备选项模块，其中：数据预处理模块根据给定情景进行词汇量和难度两个维度的统计，获取问题句子模块根据数据预处理得到的词汇量与难度维度以及需求的问题来筛选合适的问题句子，生成备选项模块使用自然语言处理的相关技术生成备选项的同时给出备选项的评价维度，让使用者根据具体需求选择合适的备选项。2.根据权利要求1所述系统的基于上下文关系且情景可选的英语单选题生成方法，其特征在于，通过从数据集提取出后续用来判断难易程度和词汇量的数据基础，然后从语料库筛选出符合词汇量和难易程度的针对预设语法的句子；再对筛选出的满足词汇量和难易程度的特定语法点的句子及其问题空缺词生成合适的备选项。3.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法，其特征是，所述的判断难易程度，通过以下判断标准实现：句子长度Len，最低频词排名Pos，词义总和Mea，成分句法分析树深度Syn，依存关系长度和Dep，困惑度Per。4.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法，其特征是，所述的筛选，通过计算与特定场景的难度系数的欧氏距离实现。5.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法，其特征是，所述的备选项，根据上下文关系或者依存关系，找出与空缺词有紧密关系的单词集合，使用word2vec从语料库中查找出和单词集合相近的单词集合，再在语料库中寻找和相近单词集合有紧密关系的和空缺词相近的单词集合作为单项选择备选项集合。6.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法，其特征是，所述的备选项，进一步将单项选择备选项集合中的每个单词代入原问题的句子，在语料库中查找有无相近的用法，如果有则从备选项集合中删去，从而避免多选答案。7.根据权利要求2所述的基于上下文关系且情景可选的英语单选题生成方法，其特征是，所述的备选项，通过备选项的难度评价维度，根据不同的需要从备选项中选择合适的单词作为备选项。8.根据权利要求2～7中任一所述的基于上下文关系且情景可选的英语单选题生成方法，其特征是，具体包括：步骤1)数据集预处理，从数据集提取出后续用来判断句子难易程度和词汇量的数据基础，具体包括：1.1)对小学课本，统计一至五年级的单词表作为词汇集合W1；1.2)由于单词表中并未包含所有小学五年级需要认识的单词，从Brown、BNC、COCA三个语料库中根据词频来获得扩充后的词汇集合W2；如小学五年级的要求词汇量为1500，对三个语料库分别统计词频前1500的单词，将其中至少出现过两次的单词取出为词汇集合W2；1.3)小学五年级这一情景的词汇量集合W＝W1∪W2；1.4)统计小学五年级课本中的句子中的六个难度维度信息的平均值用于后续判断句子的难易程度，得到其特征向量Y为Y＝[Y1，Y2，Y3，Y4，Y5，Y6]；步骤2)获取问题句子备选集合：对于语料库D中的大量句子，筛选出符合词汇量和难易程度的针对预设语法的句子，具体包括：2.1)统计句子的句子长度L和句子中分词后单词在要求词汇表W中的个数num，认为
threshold≦1的句子为符合需求词汇量的句子，threshold为自定义的阈值；2.2)根据小学五年级课本中的句子中的六个难度维度信息的平均值统计句子的难度维度：对一特定句子的难度维度写作特征向量X＝[X1，X2，X3，X4，X5，X6]，对所有句子的特征向量X和Y进行z
‑
score标准化，具体为：其中：x为个体的观测值，μ为总体数据的均值，σ为总体数据的标准差，得到的结果均值为0，标准差为1；2.3)计算特征向量间的欧氏距离作为句子难易程度相似度的判断标准，具体为：2.3)计算特征向量间的欧氏距离作为句子难易程度相似度的判断标准，...

【专利技术属性】
技术研发人员：陈逸航，李国强，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人