一种题目分类方法及系统技术方案

技术编号:15542178 阅读:30 留言:0更新日期:2017-06-05 11:14
本发明专利技术涉及分类领域,尤其涉及一种题目分类方法及系统。本发明专利技术通过提取第一题目中的符号;根据所述的符号进行分类,得到第一分类;根据所述第一分类集合相应的第一题目。实现充分利用题目中的信息,从而提高题目按知识点分类的精确度。

Title Classification Method and system

The invention relates to the field of classification, in particular to a subject classification method and a system. The invention obtains the first classification by extracting the symbols in the first title; classifies the symbols according to the symbols; and obtains the first classification according to the corresponding first topic of the first classification set. To make full use of the information in the subject, so as to improve the accuracy of the classification of the topic according to the knowledge.

【技术实现步骤摘要】
一种题目分类方法及系统
本专利技术涉及分类领域,尤其涉及一种题目分类方法及系统。
技术介绍
大数据时代每天所产生的数据量爆炸式的增长。K12教育作为中国最重要的教育形式之一,每天产生的数据量不可忽视。中国在线教育的规模正以每年30%以上的速度增长,市场估值将超过1600亿元。K12在线教育资源成为了各个企业必争之地,若能对日益增长的题目数据加以分析利用,合理归类到相应知识点中,则能提高应用的用户体验。在K12的在线教育中,绝大多数教学网站和应用,都需要大量的题库资源作为基础支撑。通常这些题目资源需在教学系统中被归类于其涉及的知识点之下,以便于学生对自身薄弱的知识点选择相应的题目进行练习。目前的题目知识点标注方法仅以人工为主,需要大量的教学相关人员为不同学龄段、不同学科的知识点进行归类。事实上单个学科在单个学龄段的知识点就可能超过千数,这很难保证相关人员在分类归档时不发生知识点遗漏或出错。而各教学网站或应用目前已经归档的题目资源仅是K12教育题中的很小一部分。尚未归类的题目,加上每一年新增的大量新题,都需要大量的教学人员为这些题目资源归类,这更是加大了难度和出错的概率。如何利用已经标以知识点的题目为未知知识点的题目进行分类便成为一种需求。根据现有题目分类的相关方法,只是将题目分类成不同的学科,例如:A题属于数学,B题属于语文,而无法精确到具体的知识点。
技术实现思路
本专利技术所要解决的技术问题是:提供一种题目分类方法及系统,实现提高题目按知识点分类的精确度。为了解决上述技术问题,本专利技术采用的技术方案为:本专利技术提供一种题目分类方法,包括:提取第一题目中的符号;根据所述的符号进行分类,得到第一分类;根据所述第一分类集合相应的第一题目。本专利技术还提供一种题目分类系统,包括:提取模块,用于提取第一题目中的符号;分类模块,用于根据所述的符号进行分类,得到第一分类;集合模块,用于根据所述第一分类集合相应的第一题目。本专利技术的有益效果在于:通过提取第一题目中的符号,并根据所述符号进行分类,实现充分利用题目中的信息,从而提高题目按知识点分类的精确度。附图说明图1为本专利技术一种题目分类方法的流程框图;图2为本专利技术一种题目分类系统的结构框图;标号说明:1、提取模块;2、分类模块;3、集合模块;4、更新模块。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。本专利技术最关键的构思在于:通过根据题目中的符号进行分类,实现充分利用题目中的信息,从而提高题目按知识点分类的精确度。如图1所示,本专利技术提供一种题目分类方法,包括:提取第一题目中的符号;根据所述的符号进行分类,得到第一分类;根据所述第一分类集合相应的第一题目。进一步地,根据所述的符号进行分类,得到第一分类,具体为:根据预设的转义字符转换所述符号,得到第二题目;提取所述第二题目的特征,得到第一向量;根据预设的知识点分类模型,得到与所述第一向量相应的第一分类。由上述描述可知,由于不同来源的题目的描述方式可能不同,尤其是不同的公式编辑器对公式中的符号的描述差异较大,因此,通过预设的转义字符转换所述公式中的符号,可归一化不同描述方式但代表相同意思的符号,从而提高分类的效率和精确度,且降低题库的冗余度。例如:待分类的题目1为“使函数有意义的的正整数取值范围组成的集合的元素有?”。待分类的题目2为“使函数有意义的y=(5-x)1/2的正整数取值范围组成的集合的元素有?”。待分类的题目3为“使函数有意义的的正整数取值范围组成的集合的元素有?”。待分类的题目4为“使函数有意义的y=1/(x-6)的正整数取值范围组成的集合的元素有?”。实际上,题目1和题目2本质上是相同的,但是现有的分类方法无法识别和判断,造成题库数据冗余。在本专利技术中,可根据预设的转义字符“\sqrt”转换题目1和题目2中的数学公式为y=\sqrt(5-x)。另,区别于现有技术,本专利技术可提取公式中符号的信息,根据符号进行分类,因此可更精确地将题目1、题目2和题目3分为一类,题目4为另一类,从而充分利用题目中的信息,提高题目按知识点分类的精确度。此外,使用预设的转义字符转换题目中的符号,有利于提高分类的准确度。例如将上述题目1中的公式转换成y=\sqrt(5-x),这样可以将\sqrt作为分类的信息,从而保留公式信息。根据现有的分类方法,题目1被解析为“使函数有意义的正整数取值范围组成的集合的元素有?”这样无法准确获取题目需要传达的意思,但是如果能够保留公式部分,可以获取更多的题目信息,便于提高题目知识点的分类精确度。进一步地,提取所述第二题目的特征,得到第一向量,具体为:解析所述第二题目,得到中文字符栈和非中文字符栈;使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;从所述第三题目中删除停止词,得到第四题目;提取所述第四题目的特征,得到第一向量。由上述描述可知,由于现有的切词算法如jieba等会删除题目中的非中文字符,只对中文字符进行切词处理,因此,本专利技术先将题目中的中文字符和非中文字符分别放入不同的栈,对中文字符栈进行切词处理,对非中文字符栈使用正则表达式匹配相应的公式,尽量将公式中可识别的部分分开,能够在保留题目中信息的同时,对题目进行切词,有利于提取题目中的特征向量。此外,使用栈保存中文字符和非中文字符能够保证字符顺序不变,在切词处理过程中不改变题目的原意。再者,删除题目中的停止词,即无意义的词,如“的”、“它”、“在”、“为”、“里面”等,能够更精确地提取题目的特征向量,忽略无关信息,降低特征向量的冗余度。进一步地,从所述第三题目中删除停止词,得到第四题目,具体为:计算所述第三题目中各个词的权重;根据所述权重将所述第三题目中的词排序,形成第一队列;从所述第三题目中删除与预设个数元素相应的词,得到第四题目。由上述描述可知,由于不同学科和不同学龄段的停止词的具体内容不同,现有的停止词获取方法为通过停止词表进行查阅,灵活性和针对性较低,本专利技术通过停止词计算算法,如TF-IDF算法,计算各个词在题目中的权重,并删除所述第三题目中权重较小的词,能够针对不同学科获得不同的停止词,从而提高获取到的近似题的相关性。例如,常见词汇“加速度”在物理学科中是经常出现的词汇,而且对题意的理解也是很重要的,然而在生物学中,1000道题目都未必能有这种词汇,因此如果在生物学科中发现有“加速度”,就可以认定为其是停止词,并不能作为生物学科中重要的词看待,可以将其删除。其中,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。其计算公式如下:上述公式中ni,j是该词在文件dj中出现的次数,而分母这是在文件dj中所有字词出现的次数之和。逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。其公式如下所示:其中|D|是语料文件的总数,|{j:ti∈dj}|包含词语ti的文件数目,如果该词不在语料库中,就本文档来自技高网
...
一种题目分类方法及系统

【技术保护点】
一种题目分类方法,其特征在于,包括:提取第一题目中的符号;根据所述的符号进行分类,得到第一分类;根据所述第一分类集合相应的第一题目。

【技术特征摘要】
1.一种题目分类方法,其特征在于,包括:提取第一题目中的符号;根据所述的符号进行分类,得到第一分类;根据所述第一分类集合相应的第一题目。2.根据权利要求1所述的题目分类方法,其特征在于,根据所述的符号进行分类,得到第一分类,具体为:根据预设的转义字符转换所述符号,得到第二题目;提取所述第二题目的特征,得到第一向量;根据预设的知识点分类模型,得到与所述第一向量相应的第一分类。3.根据权利要求2所述的题目分类方法,其特征在于,提取所述第二题目的特征,得到第一向量,具体为:解析所述第二题目,得到中文字符栈和非中文字符栈;使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;从所述第三题目中删除停止词,得到第四题目;提取所述第四题目的特征,得到第一向量。4.根据权利要求3所述的题目分类方法,其特征在于,从所述第三题目中删除停止词,得到第四题目,具体为:计算所述第三题目中各个词的权重;根据所述权重将所述第三题目中的词排序,形成第一队列;从所述第三题目中删除与预设个数元素相应的词,得到第四题目。5.根据权利要求1所述的题目分类方法,其特征在于,根据所述的符号进行分类,得到第一分类,具体为:根据预设的转义字符转换所述符号,得到第二题目;根据所述第二题目构建词频向量;所述词频向量中元素的个数为预设训练数据集中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第二题目中出现的次数;根据预设的维度建立语义特征抽取模型;根据所述语义特征抽取模型构建与所述第二题目相应的语义向量...

【专利技术属性】
技术研发人员:刘德建詹博悍章亮陈霖吴拥民陈宏展
申请(专利权)人:福建天泉教育科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1