一种近似题推送方法及系统技术方案

技术编号：15331106 阅读：121 留言：0更新日期：2017-05-16 14:26

本发明专利技术涉及推送领域，尤其涉及一种近似题推送方法及系统。本发明专利技术通过提取第一题目中的符号；根据所述的符号进行归类，得到与所述第一题目相应的分类；计算所述第一题目与所述分类中各题目的相似度；根据所述相似度形成近似题集合；推送所述近似题集合。实现充分利用题目中的信息，从而提高推荐题目的相关性。

Method and system for pushing approximate questions

The invention relates to a push field, in particular to a near question push method and system. The present invention by extracting the first title symbol; classified according to the symbol, and the first title of the corresponding classification; similarity calculation of the first on the subject and the classification; according to the similarity form approximate problem sets; push the approximate problem set. To make full use of the information in the subject, so as to improve the relevance of the recommended topic.

全部详细技术资料下载

【技术实现步骤摘要】
一种近似题推送方法及系统
本专利技术涉及推送领域，尤其涉及一种近似题推送方法及系统。
技术介绍
大数据时代，每天所产生的数据量爆炸式的增长。K12教育作为中国最重要的教育形式之一，每天产生的数据量不可忽视。中国在线教育的规模正以每年30％以上的速度增长，市场估值将超过1600亿元。教育应用或网站中，常有当学生遇到难解或薄弱题后，需推送其近似题供其深入练习的需求。现有的题目推荐多基于协方差矩阵的推荐系统，引入类似商品推荐的方法，所推送题目对教学模式的适应性较低。并且题目的特征提取相对简单，不适用于含较多公式或复杂成分的题目。现有的相关题目相似度计算方法中，主要有以下三类：(1)计算两个题目的最长公共字符，再除以两个题目中最短题目的字符个数则为两个题目的相似度。(2)根据当前题目的知识点信息，从与其知识点相同的其他题目中随机抽取相关题目作为相似题。(3)将一个题目转换为另一个题目所需要的最小编辑(增删改等操作)的次数。(4)计算两个题目之间的增删距离和替换距离，将两种距离综合得到两个题目的相似度以达到推送相关题目的目的。以上的方法所推送的题目相关性较差，推荐的效果并不理想。
技术实现思路
本专利技术所要解决的技术问题是：提供一种近似题推送方法及系统，实现提高推送题目的相关性。为了解决上述技术问题，本专利技术采用的技术方案为：本专利技术提供一种近似题推送方法，包括：S1：提取第一题目中的符号；S2：根据所述的符号进行归类，得到与所述第一题目相应的分类；S3：计算所述第一题目与所述分类中各题目的相似度；S4：根据所述相似度形成近似题集合；S5：推送所述近似题集合。本专...
一种近似题推送方法及系统

【技术保护点】
一种近似题推送方法，其特征在于，包括：S1、提取第一题目中的符号；S2、根据所述的符号进行归类，得到与所述第一题目相应的分类；S3、计算所述第一题目与所述分类中各题目的相似度；S4、根据所述相似度形成近似题集合；S5、推送所述近似题集合。

【技术特征摘要】
1.一种近似题推送方法，其特征在于，包括：S1、提取第一题目中的符号；S2、根据所述的符号进行归类，得到与所述第一题目相应的分类；S3、计算所述第一题目与所述分类中各题目的相似度；S4、根据所述相似度形成近似题集合；S5、推送所述近似题集合。2.根据权利要求1所述的近似题推送方法，其特征在于，所述S2具体为：根据预设的转义字符转换所述符号，得到第二题目；提取所述第二题目的特征，得到第一向量；根据预设的知识点分类模型，得到与所述第一向量相应的分类。3.根据权利要求2所述的题目分类方法，其特征在于，提取所述第二题目的特征，得到第一向量，具体为：解析所述第二题目，得到中文字符栈和非中文字符栈；使用切词算法对所述中文字符栈中的字符进行切词处理，并使用预设的正则表达式匹配所述非中文字符栈中存储的公式，得到第三题目；从所述第三题目中删除停止词，得到第四题目；提取所述第四题目的特征，得到第一向量。4.根据权利要求3所述的题目分类方法，其特征在于，从所述第三题目中删除停止词，得到第四题目，具体为：计算所述第三题目中各个词的权重；根据所述权重将所述第三题目中的词排序，形成第一队列；从所述第三题目中删除与所述第一队列前预设个数元素相应的词，得到第四题目。5.根据权利要求1所述的题目分类方法，其特征在于，所述S2具体为：根据预设的转义字符转换所述符号，得到第二题目；根据所述第二题目构建词频向量；所述词频向量中元素的个数为预设训练数据集中不同词的数量，所述词频向量中元素的值为与所述元素相应的词在所述第二题目中出现的次数；根据预设的维度建立语义特征抽取模型；根据所述语义特征抽取模型构建与所述第二题目相应的语义向量；根据预设的知识点分类模型，得到与所述词频向量和所述语义向量相应的分类。6.根据权利要求...

【专利技术属性】
技术研发人员：刘德建，詹博悍，章亮，陈霖，吴拥民，陈宏展，
申请(专利权)人：福建天泉教育科技有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人