文本的处理方法、装置、存储介质、处理器和终端制造方法及图纸

技术编号:18289471 阅读:24 留言:0更新日期:2018-06-24 04:10
本发明专利技术公开了一种文本的处理方法、装置、存储介质、处理器和终端。该方法包括:从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合,其中,原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和,目标文本包括:与原始文本匹配的备选题目;根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。本发明专利技术解决了相关技术中通过人工方式凭借实际教学经验为学生布置课后练习的方式操作过程复杂且缺乏针对性的技术问题。

【技术实现步骤摘要】
文本的处理方法、装置、存储介质、处理器和终端
本专利技术涉及计算机领域,具体而言,涉及一种文本的处理方法、装置、存储介质、处理器和终端。
技术介绍
目前,在教育机构中,授课教师在每节课为学生讲授具体知识之后,会在临近下课时段为学生布置相关的课后练习。在授课教材的每一小节通常会设置与本小节内容相对应的较为简单的习题,以帮助学生巩固对课堂所学知识的理解。另外,在每一章节的全部内容教授完毕后,授课教材还在附带与本章授课内容相对应的较为复杂的综合类习题,以帮助学生进一步加深对课堂所学知识的理解。相关技术中所提供的为学生布置课后练习的方式通常是授课教师根据自身的教学经验从每一小节和/或每一章节的配套练习中选取题目或者直接随机从课后练习中抽选题目,然后再布置给学生。然而,上述通过人工方式凭借实际教学经验为学生布置课后练习的方式存在如下弊端:鉴于在相同年级教授相同科目的各位授课教师的学历、教学年限等多个方面的综合素质互有不同(例如:二年级A班和B班的语文授课教师是本市教学经验丰富的特级教师,二年级C班和D班的语文授课教师是全国名牌大学刚毕业三年的新晋教师),由此易造成各位授课教师在教学经验和教学理念上存在差异,故而难以发挥相同科目所有老师的长处。(现在课后练习题都是老师自己根据自己的经验出給学生的,若是能总和所有老师教学关键字,总和选择课后习题,就能发挥所有老师的长处),体检更好从题库中选择更针对性的练习题给学生巩固学习。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术至少部分实施例提供了一种文本的处理方法、装置、存储介质、处理器和终端,以至少解决相关技术中通过人工方式凭借实际教学经验为学生布置课后练习的方式操作过程复杂且缺乏针对性的技术问题。根据本专利技术其中一实施例,提供了一种文本的处理方法,包括:从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合,其中,原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和,目标文本包括:与原始文本匹配的备选题目;根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。可选地,从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合包括:将原始文本设置为分词对象并对原始文本进行分词处理,获取第一词语集合;将目标文本设置为分词对象并对目标文本中与备选题目关联的索引信息或描述信息进行分词处理,获取第二词语集合。可选地,根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目包括:将第一词语集合与第二词语集合合并为第三词语集合;获取第三词语集合中的每个词语在原始文件中的出现频次,得到第一词频向量,以及获取第三词语集合中的每个词语在目标文本中的出现频次,得到第二词频向量;计算第一词频向量与第二词频向量的相似度,从目标文本中提取待使用的题目。可选地,计算第一词频向量与第二词频向量的相似度,从目标文本中提取待使用的题目包括:采用余弦公式计算第一词频向量与第二词频向量之间的余弦相似度,其中,第一词频向量与第二词频向量之间的夹角越小,余弦相似度越高;按照余弦相似度的取值由高到低的顺序从目标文本中提取待使用的题目。根据本专利技术其中一实施例,还提供了一种文本的处理装置,包括:获取模块,用于从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合,其中,原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和,目标文本包括:与原始文本匹配的备选题目;处理模块,用于根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目。可选地,获取模块包括:第一获取单元,用于将原始文本设置为分词对象并对原始文本进行分词处理,获取第一词语集合;第二获取单元,用于将目标文本设置为分词对象并对目标文本中与备选题目关联的索引信息或描述信息进行分词处理,获取第二词语集合。可选地,处理模块包括:合并单元,用于将第一词语集合与第二词语集合合并为第三词语集合;第三获取单元,用于获取第三词语集合中的每个词语在原始文件中的出现频次,得到第一词频向量,以及获取第三词语集合中的每个词语在目标文本中的出现频次,得到第二词频向量;处理单元,用于计算第一词频向量与第二词频向量的相似度,从目标文本中提取待使用的题目。可选地,处理单元包括:计算子单元,用于采用余弦公式计算第一词频向量与第二词频向量之间的余弦相似度,其中,第一词频向量与第二词频向量之间的夹角越小,余弦相似度越高;提取子单元,用于按照余弦相似度的取值由高到低的顺序从目标文本中提取待使用的题目。根据本专利技术其中一实施例,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述文本的处理方法。根据本专利技术其中一实施例,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述文本的处理方法。根据本专利技术其中一实施例,还提供了一种终端,包括:一个或多个处理器,存储器,显示装置以及一个或多个程序,其中,一个或多个程序被存储在存储器中,并且被配置为由一个或多个处理器执行,一个或多个程序用于执行上述文本的处理方法。在本专利技术至少部分实施例中,采用从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合,其中,原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和,目标文本包括:与原始文本匹配的备选题目的方式,根据第一词语集合与第二词语集合的相似度从目标文本中提取待使用的题目,达到了根据从多个用户在各自对应的信息载体上输入的字符信息的总和获取到的词语集合以及从备选题目中获取到的词语集合进行相似度计算进而从目标文本中提取待使用的题目的目的,从而实现了更加有针对性地为学生布置课后练习、简化操作过程、提高操作效率的技术效果,进而解决了相关技术中通过人工方式凭借实际教学经验为学生布置课后练习的方式操作过程复杂且缺乏针对性的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术其中一实施例的文本的处理方法的流程图;图2是根据本专利技术其中一实施例的文本的处理装置的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术其中一实施例,提供了一种文本的处理方法的实施例,需要说明的是,在附图的流程本文档来自技高网
...
文本的处理方法、装置、存储介质、处理器和终端

【技术保护点】
1.一种文本的处理方法,其特征在于,包括:从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合,其中,所述原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和,所述目标文本包括:与所述原始文本匹配的备选题目;根据所述第一词语集合与第二词语集合的相似度从所述目标文本中提取待使用的题目。

【技术特征摘要】
1.一种文本的处理方法,其特征在于,包括:从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合,其中,所述原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和,所述目标文本包括:与所述原始文本匹配的备选题目;根据所述第一词语集合与第二词语集合的相似度从所述目标文本中提取待使用的题目。2.根据权利要求1所述的方法,其特征在于,从所述原始文本中获取所述第一词语集合以及从所述目标文本中获取所述第二词语集合包括:将所述原始文本设置为分词对象并对所述原始文本进行分词处理,获取所述第一词语集合;将所述目标文本设置为分词对象并对所述目标文本中与所述备选题目关联的索引信息或描述信息进行分词处理,获取所述第二词语集合。3.根据权利要求1所述的方法,其特征在于,根据所述第一词语集合与第二词语集合的相似度从所述目标文本中提取所述待使用的题目包括:将所述第一词语集合与第二词语集合合并为第三词语集合;获取所述第三词语集合中的每个词语在所述原始文件中的出现频次,得到第一词频向量,以及获取所述第三词语集合中的每个词语在所述目标文本中的出现频次,得到第二词频向量;计算所述第一词频向量与所述第二词频向量的相似度,从所述目标文本中提取所述待使用的题目。4.根据权利要求3所述的方法,其特征在于,计算所述第一词频向量与所述第二词频向量的相似度,从所述目标文本中提取所述待使用的题目包括:采用余弦公式计算所述第一词频向量与所述第二词频向量之间的余弦相似度,其中,所述第一词频向量与所述第二词频向量之间的夹角越小,所述余弦相似度越高;按照所述余弦相似度的取值由高到低的顺序从所述目标文本中提取所述待使用的题目。5.一种文本的处理装置,其特征在于,包括:获取模块,用于从原始文本中获取第一词语集合以及从目标文本中获取第二词语集合,其中,所述原始文本为多个用户在各自对应的信息载体上输入的字符信息的总和,所述目标文本包括:与所述原始文本匹配的备选...

【专利技术属性】
技术研发人员:尹志超
申请(专利权)人:广州视源电子科技股份有限公司广州视睿电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1