一种近似题推送方法及系统技术方案

技术编号:15331106 阅读:121 留言:0更新日期:2017-05-16 14:26
本发明专利技术涉及推送领域,尤其涉及一种近似题推送方法及系统。本发明专利技术通过提取第一题目中的符号;根据所述的符号进行归类,得到与所述第一题目相应的分类;计算所述第一题目与所述分类中各题目的相似度;根据所述相似度形成近似题集合;推送所述近似题集合。实现充分利用题目中的信息,从而提高推荐题目的相关性。

Method and system for pushing approximate questions

The invention relates to a push field, in particular to a near question push method and system. The present invention by extracting the first title symbol; classified according to the symbol, and the first title of the corresponding classification; similarity calculation of the first on the subject and the classification; according to the similarity form approximate problem sets; push the approximate problem set. To make full use of the information in the subject, so as to improve the relevance of the recommended topic.

【技术实现步骤摘要】
一种近似题推送方法及系统
本专利技术涉及推送领域,尤其涉及一种近似题推送方法及系统。
技术介绍
大数据时代,每天所产生的数据量爆炸式的增长。K12教育作为中国最重要的教育形式之一,每天产生的数据量不可忽视。中国在线教育的规模正以每年30%以上的速度增长,市场估值将超过1600亿元。教育应用或网站中,常有当学生遇到难解或薄弱题后,需推送其近似题供其深入练习的需求。现有的题目推荐多基于协方差矩阵的推荐系统,引入类似商品推荐的方法,所推送题目对教学模式的适应性较低。并且题目的特征提取相对简单,不适用于含较多公式或复杂成分的题目。现有的相关题目相似度计算方法中,主要有以下三类:(1)计算两个题目的最长公共字符,再除以两个题目中最短题目的字符个数则为两个题目的相似度。(2)根据当前题目的知识点信息,从与其知识点相同的其他题目中随机抽取相关题目作为相似题。(3)将一个题目转换为另一个题目所需要的最小编辑(增删改等操作)的次数。(4)计算两个题目之间的增删距离和替换距离,将两种距离综合得到两个题目的相似度以达到推送相关题目的目的。以上的方法所推送的题目相关性较差,推荐的效果并不理想。
技术实现思路
本专利技术所要解决的技术问题是:提供一种近似题推送方法及系统,实现提高推送题目的相关性。为了解决上述技术问题,本专利技术采用的技术方案为:本专利技术提供一种近似题推送方法,包括:S1:提取第一题目中的符号;S2:根据所述的符号进行归类,得到与所述第一题目相应的分类;S3:计算所述第一题目与所述分类中各题目的相似度;S4:根据所述相似度形成近似题集合;S5:推送所述近似题集合。本专利技术还提供一种近似题推送系统,包括:提取模块,用于提取第一题目中的符号;归类模块,用于根据所述的符号进行归类,得到与所述第一题目相应的分类;计算模块,用于计算所述第一题目与所述分类中各题目的相似度;获取模块,用于根据所述相似度形成近似题集合;推送模块,用于推送所述近似题集合。本专利技术的有益效果在于:通过提取第一题目中的符号,根据所述符号进行归类并推送与第一题目相似的近似题集合,实现充分利用题目中的信息,从而提高推荐题目的相关性。附图说明图1为本专利技术一种近似题推送方法的流程框图;图2为本专利技术一种近似题推送系统的结构框图;标号说明:1、提取模块;2、归类模块;3、计算模块;4、获取模块;5、推送模块。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。本专利技术最关键的构思在于:通过提取第一题目中的符号,根据所述符号进行归类并推送与第一题目相似的近似题集合,实现提高推荐题目的相关性。如图1所示,本专利技术提供一种近似题推送方法,包括:提取第一题目中的符号;根据所述的符号进行归类,得到与所述第一题目相应的分类;计算所述第一题目与所述分类中各题目的相似度;根据所述相似度形成近似题集合;推送所述近似题集合。进一步地,所述S2具体为:根据预设的转义字符转换所述符号,得到第二题目;提取所述第二题目的特征,得到第一向量;根据预设的知识点分类模型,得到与所述第一向量相应的分类。由上述描述可知,由于不同来源的题目的描述方式可能不同,尤其是不同的公式编辑器对公式中的符号的描述差异较大,因此,通过预设的转义字符转换所述公式中的符号,可归一化不同描述方式但代表相同意思的符号,从而准确并充分利用题目中的信息,提高推送题目的相关性及获取近似题的效率。例如:待推送近似题的题目1为“使函数有意义的的正整数取值范围组成的集合的元素有?”。待推送近似题的题目2为“使函数有意义的y=(5-x)1/2的正整数取值范围组成的集合的元素有?”。实际上,题目1和题目2本质上是相同的,但是现有的方法无法充分利用题目中公式的信息,只是推送计算变量的取值范围从而使函数有意义的题目,而无法更具有针对性地推送计算变量的取值范围从而使带有根号的函数有意义的题目。且现有的方法无法识别和判断相同的题目,造成需重复解析同一题目从而获得近似题,效率低。进一步地,提取所述第二题目的特征,得到第一向量,具体为:解析所述第二题目,得到中文字符栈和非中文字符栈;使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;从所述第三题目中删除停止词,得到第四题目;提取所述第四题目的特征,得到第一向量。由上述描述可知,由于现有的切词算法会删除题目中的非中文字符,只对中文字符进行切词处理,因此,本专利技术先将题目中的中文字符和非中文字符分别放入不同的栈,对中文字符栈进行切词处理,对非中文字符栈使用正则表达式匹配相应的公式,尽量将公式中可识别的部分分开,能够在保留题目中信息的同时,对题目进行切词,有利于提取题目中的特征向量。此外,使用栈保存中文字符和非中文字符能够保证字符顺序不变,在切词处理过程中不改变题目的原意。再者,删除题目中的停止词,即无意义的词,如“的”、“它”、“在”、“为”、“里面”等,能够更精确地提取题目的特征向量,忽略无关信息,降低特征向量的冗余度。进一步地,从所述第三题目中删除停止词,得到第四题目,具体为:计算所述第三题目中各个词的权重;根据所述权重将所述第三题目中的词排序,形成第一队列;从所述第三题目中删除与所述第一队列前预设个数元素相应的词,得到第四题目。由上述描述可知,由于不同学科和不同学龄段的停止词的具体内容不同,现有的停止词获取方法为通过停止词表进行查阅,灵活性和针对性较低,本专利技术通过停止词计算算法,如TF-IDF算法,计算各个词在题目中的权重,并删除所述第三题目中权重较小的词,能够针对不同学科获得不同的停止词,从而提高获取到的近似题的相关性。例如,常见词汇“加速度”在物理学科中是经常出现的词汇,而且对题意的理解也是很重要的,然而在生物学中,1000道题目都未必能有这种词汇,因此如果在生物学科中发现有“加速度”,就可以认定为其是停止词,并不能作为生物学科中重要的词看待,可以将其删除。其中,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。其计算公式如下:上述公式中ni,j是该词在文件dj中出现的次数,而分母这是在文件dj中所有字词出现的次数之和。逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。其公式如下所示:其中|D|是语料文件的总数,|{j:ti∈dj}|包含词语ti的文件数目,如果该词不在语料库中,就会导致被除数为0,因此一般情况下使用的是1+|{j:ti∈dj}|。最后得到TF-IDF的公式,如下所示:tf-idfi,j=tfi,j×idfi某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。进一步地,所述S2具体为:根据预设的转义字符转换所述符号,得到第二题目;根据所述第二题目构建词频向量;所述词频向量中元素的个数为预设训练数据集中不同词的数量,所述词频向量中元本文档来自技高网
...
一种近似题推送方法及系统

【技术保护点】
一种近似题推送方法,其特征在于,包括:S1、提取第一题目中的符号;S2、根据所述的符号进行归类,得到与所述第一题目相应的分类;S3、计算所述第一题目与所述分类中各题目的相似度;S4、根据所述相似度形成近似题集合;S5、推送所述近似题集合。

【技术特征摘要】
1.一种近似题推送方法,其特征在于,包括:S1、提取第一题目中的符号;S2、根据所述的符号进行归类,得到与所述第一题目相应的分类;S3、计算所述第一题目与所述分类中各题目的相似度;S4、根据所述相似度形成近似题集合;S5、推送所述近似题集合。2.根据权利要求1所述的近似题推送方法,其特征在于,所述S2具体为:根据预设的转义字符转换所述符号,得到第二题目;提取所述第二题目的特征,得到第一向量;根据预设的知识点分类模型,得到与所述第一向量相应的分类。3.根据权利要求2所述的题目分类方法,其特征在于,提取所述第二题目的特征,得到第一向量,具体为:解析所述第二题目,得到中文字符栈和非中文字符栈;使用切词算法对所述中文字符栈中的字符进行切词处理,并使用预设的正则表达式匹配所述非中文字符栈中存储的公式,得到第三题目;从所述第三题目中删除停止词,得到第四题目;提取所述第四题目的特征,得到第一向量。4.根据权利要求3所述的题目分类方法,其特征在于,从所述第三题目中删除停止词,得到第四题目,具体为:计算所述第三题目中各个词的权重;根据所述权重将所述第三题目中的词排序,形成第一队列;从所述第三题目中删除与所述第一队列前预设个数元素相应的词,得到第四题目。5.根据权利要求1所述的题目分类方法,其特征在于,所述S2具体为:根据预设的转义字符转换所述符号,得到第二题目;根据所述第二题目构建词频向量;所述词频向量中元素的个数为预设训练数据集中不同词的数量,所述词频向量中元素的值为与所述元素相应的词在所述第二题目中出现的次数;根据预设的维度建立语义特征抽取模型;根据所述语义特征抽取模型构建与所述第二题目相应的语义向量;根据预设的知识点分类模型,得到与所述词频向量和所述语义向量相应的分类。6.根据权利要求...

【专利技术属性】
技术研发人员:刘德建詹博悍章亮陈霖吴拥民陈宏展
申请(专利权)人:福建天泉教育科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1