词汇学习的词条选取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:22295475 阅读:22 留言:0更新日期:2019-10-15 04:37
本发明专利技术提供了一种词汇学习的词条选取方法、装置、电子设备及存储介质,通过语料库的数据挖掘,获得词条与词条词频的数据,再将词条组合成词族并进一步运算出词族的词频数据。按照词族的词频数据,优先选取高频词汇来分阶段学习,可以把握学习的重点;用词族和词源深度挖掘词汇之间的关联,词条的记忆会变得更加深刻,二者结合就可以达成良好的教学和记忆效果。

Vocabulary learning entries selection methods, devices, electronic devices and storage media

【技术实现步骤摘要】
词汇学习的词条选取方法、装置、电子设备及存储介质
本专利技术涉及教育领域,具体涉及一种词汇学习的词条选取方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着社会的发展,外语在我们的生活和工作中也越来越重要,从而,也越来越多的人在学习语言(例如英语),在学习过程中往往需要记忆大量的单词,而单纯的记忆单词非常的枯燥,同时由于很多单词之间存在相似性,这也给学习的人带来了记忆的难度。现有的词汇学习方式多为推荐需要学习的单词,由学习的人自行记忆,这样的学习方式没有系统的学习框架,不仅学习效率低,而且会造成记忆不深刻。
技术实现思路
有鉴于此,本专利技术实施例致力于提供一种词汇学习的词条选取方法,通过智能将词条组合成词族,并选取适合学习的人当前需求的词汇,以词族的形式增强记忆效果,同时增加记忆的词汇量。根据本专利技术的一方面,本专利技术一实施例提供的一种词汇学习的词条选取方法,包括:从语料库中获取词条的词条词频;将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。在一实施例中,在所述将形式相似度大于预设形式相似度阈值的所述词条组合为词族之后,还包括:选取所述词族的中心词,其中所述中心词代表所述词族。在一实施例中,所述选取所述词族的中心词包括:选取所述词族中词条词频最大的词条为中心词。在一实施例中,所述选取所述词族中词条词频最大的词条为中心词包括:判断是否存在其他词条的词条词频与最大的词条词频的差值小于预设差值;当存在其他词条的词条词频与最大的词条词频的差值小于预设差值时,选取所述最大的词条词频对应的词条和所述其他词条中为动词和/或长度小于预设长度阈值的词条为中心词。在一实施例中,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之前,还包括:对所述词族进行预处理。在一实施例中,所述对所述词族进行预处理包括:删除所述词族中词条词频小于第一预设词频阈值的词条。在一实施例中,所述对所述词族进行预处理包括:计算当前词族中的词条与该词族的中心词的相似度;判断所述相似度是否小于第一预设相似度阈值;以及当判断结果为所述相似度小于所述第一预设相似度阈值,将所述相似度对应的所述词条调整至其他词族中。在一实施例中,所述相似度包括语音相似度,和/或第一语义相似度,和/或词源相似度。在一实施例中,所述词族的词族词频根据所述词族包含的所有词条的词条词频得到包括:所述词族的词族词频为所述词族包含的所有词条的词条词频求和得到。在一实施例中,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之后,还包括:根据词族的词源,对选取的词族进行聚类操作。在一实施例中,所述根据词族的词源,对所选取的词族进行聚类操作包括:查找所述选取的词族的中心词的词源;以及将具有相同词源的所述中心词对应的所述词族划分为同一类。在一实施例中,所述词源包括美国传统字典的印欧根。在一实施例中,在所述对选取的词族进行聚类操作之后,还包括:将满足预设条件的词族重新划分类。在一实施例中,所述预设条件包括:对应的聚类中包含词族数量低于预设数量阈值,和/或与对应的词源的相似度小于第二预设相似度阈值,和/或未被划分至任何类。在一实施例中,所述重新划分类的方式包括:提取当前词族的中心词的词干;计算所述词干与所有的词源的相似度;当大于第三预设相似度阈值的相似度数量为一个时,将所述当前词族划分至该相似度对应的词源所在的类;以及当大于所述第三预设相似度阈值的相似度数量为多个时,将所述当前词族划分至该多个相似度对应的多个词源中词族数量最少的词源所在的类。在一实施例中,所述提取当前词族的中心词的词干包括:去除所述中心词的前缀和后缀,和/或将合成词拆解出对应的词条。在一实施例中,在所述选取所述词族词频排序靠前的所述词条数量个词族及对应的词条作为词汇学习的内容之后,还包括:将选取的词条以图表的形式展开显示。在一实施例中,所述图表包括多级节点,其中根节点为词源。在一实施例中,所述多级节点包括:中心词和对应词族中的其他词条。在一实施例中,所述多级节点还包括如下节点中的任一个或多个的组合:词源,语音特征,语义特征和前缀。在一实施例中,所述图表包括思维导图。根据本专利技术的另一方面,本专利技术一实施例提供的一种词汇学习的词条选取装置,包括:获取模块,用于从语料库中获取词条的词条词频;组合模块,用于将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。根据本专利技术的另一方面,本专利技术一实施例提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的词汇学习的词条选取方法。根据本专利技术的另一方面,本专利技术一实施例提供的一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的词汇学习的词条选取方法。本专利技术实施例提供的词汇学习的词条选取方法,通过将词条组合成词族,并根据语料库中的词条词频得到词族词频,择优选取词族词频高的词族及对应的词条为词汇学习的内容,有效提高了词汇学习的效率和效果,同时通过词族的形式去记忆,相比单个词条记忆更加深刻,也进一步增加了记忆的词汇量。附图说明图1所示为本申请一实施例提供的词汇学习的词条选取方法的流程图。图2所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。图3所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。图4所示为本申请一实施例提供的预处理方法的流程图。图5所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。图6所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。图7所示为本申请一实施例提供的重新划分类的方法的流程图。图8所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。图9所示为本申请一实施例提供的图表的结构示意图。图10所示为本申请一实施例提供的词汇学习的词条选取装置的结构示意图。图11所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。图12所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。图13所示为本申请一实施例提供的预处理模块的结构示意图。图14所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。图15所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。图16所示为本申请一实施例提供的重新划分模块的结构示意图。图17所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。图18所示为本申请一实施例提供的电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。此外,在示例性实施例中,因为相同的参考标记表本文档来自技高网...

【技术保护点】
1.一种词汇学习的词条选取方法,其特征在于,包括:从语料库中获取词条的词条词频;将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。

【技术特征摘要】
1.一种词汇学习的词条选取方法,其特征在于,包括:从语料库中获取词条的词条词频;将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。2.根据权利要求1所述的方法,其特征在于,在所述将形式相似度大于预设形式相似度阈值的所述词条组合为词族之后,还包括:选取所述词族的中心词,其中所述中心词代表所述词族。3.根据权利要求2所述的方法,其特征在于,所述选取所述词族的中心词包括:选取所述词族中词条词频最大的词条为中心词。4.根据权利要求3所述的方法,其特征在于,所述选取所述词族中词条词频最大的词条为中心词包括:判断是否存在其他词条的词条词频与最大的词条词频的差值小于预设差值;当存在其他词条的词条词频与最大的词条词频的差值小于预设差值时,选取所述最大的词条词频对应的词条和所述其他词条中为动词和/或长度小于预设长度阈值的词条为中心词。5.根据权利要求1所述的方法,其特征在于,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之前,还包括:对所述词族进行预处理。6.根据权利要求5所述的方法,其特征在于,所述对所述词族进行预处理包括:删除所述词族中词条词频小于第一预设词频阈值的词条。7.根据权利要求5所述的方法,其特征在于,所述对所述词族进行预处理包括:计算当前词族中的词条与该词族的中心词的相似度;判断所述相似度是否小于第一预设相似度阈值;以及当判断结果为所述相似度小于所述第一预设相似度阈值,将所述相似度对应的所述词条调整至其他词族中。8.根据权利要求7所述的方法,其特征在于,所述相似度包括语音相似度,和/或第一语义相似度,和/或词源相似度。9.根据权利要求1所述的方法,其特征在于,所述词族的词族词频根据所述词族包含的所有词条的词条词频得到包括:所述词族的词族词频为所述词族包含的所有词条的词条词频求得到。10.根据权利要求1所述的方法,其特征在于,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之后,还包括:根据词族的词源,对选取的词族进行聚类操作。11.根据权利要求10所述的方法,其特征在于,所述根据词族的词源,对所选取的词族进行聚类操作包括:查找所述选取的词族的中心词的词源;以及将具有相同词源的所述中心词对应的所述词族划分...

【专利技术属性】
技术研发人员:翟文韬
申请(专利权)人:北京麒才教育科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1