基于信息抽取和知识图谱的试题推荐方法技术

技术编号：29586037 阅读：22 留言：0更新日期：2021-08-06 19:45

本发明专利技术请求保护一种基于信息抽取和知识图谱的试题推荐方法，包括步骤：通过神经网络模型对试题进行实体识别和实体关系抽取，得到试题所考查的三元组知识点，形成试题知识图谱；根据已构建的试题知识图谱，构建基于三元组知识点关联的试题网络；根据错题以及试题网络进行试题推荐。本发明专利技术通过神经网络模型对试题进行知识点自动化提取，能有效节省人工，同时避免人工的主观性偏差，另外本发明专利技术抽取到的三元组知识点较章节大知识点，以及关键词知识点更加精细，同时考虑试题背后考查知识点之间的组合关系，构建试题网络，将试题间基于知识点的关联程度数字化、精细化，并根据错题和试题间精细化的关联信息，进行试题推荐，使得试题推荐结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
基于信息抽取和知识图谱的试题推荐方法
本专利技术属于计算机软件
，具体涉及一种基于信息抽取和知识图谱的试题推荐方法。
技术介绍
随着互联网技术的发展，信息的爆炸式的增长使得网络中信息泛滥问题变得特别严重，对于用户来说从海量数据中寻找对于自己有价值的数据显得十分困难。近年来，鉴于推荐技术在各个领域均有较大的价值，各行各业的专家学者都投身于推荐技术的研究中去。在教育领域，当前有很多线上题库网站，能辅助学生进行课外学习，以达到更好的学习效果，但如何在海量的试题中找到对于自己有价值的试题显得十分困难。一方面这些平台的运营和维护需要耗费大量的人工成本，同时存在人为主观因素的影响。因此如何让计算机去阅读并理解知识，实现教育资源的自动化整合显得十分重要。另一方面试题知识点的抽取是进行试题推荐的基础，但现有试题知识点的抽取方法比较粗糙，比如按章节知识点划分或者通过分词得到关键词，然后通过人工筛选关键词作为知识点，这些方法对试题知识点的提取比较粗糙，基于粗糙知识点的试题知识点提取将影响到后续推荐方法的效果。此外，目前主流推荐方法中主要有基于规则的推荐技术、基于内容的推荐技术和协同过滤技术。基于规则的推荐技术，过度依赖于专业领域的语言专家定义语法规则，需要耗费大量时间来提取规则，人工成本太高，同时迁移成本巨大。基于内容的推荐对复杂属性的处理不够友好，同时对新用户不能产生好的推荐。基于协同过滤，认知诊断等推荐方法，推荐与错题极其相似的试题。这样的推荐结果很可能导致用户重复做相似或者相同的题，而...

【技术保护点】
1.一种基于信息抽取和知识图谱的试题推荐方法，其特征在于，包括以下步骤：/nS1、采用基于深度学习方法中的神经网络模型对试题文本进行实体识别；/nS2、采用基于深度学习方法中的神经网络模型对试题文本进行实体关系抽取；/nS3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点，构建试题的知识图谱，并构造基于知识点关联的试题网络；/nS4、根据错题集和已构建的试题网络进行试题推荐。/n

【技术特征摘要】
1.一种基于信息抽取和知识图谱的试题推荐方法，其特征在于，包括以下步骤：
S1、采用基于深度学习方法中的神经网络模型对试题文本进行实体识别；
S2、采用基于深度学习方法中的神经网络模型对试题文本进行实体关系抽取；
S3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点，构建试题的知识图谱，并构造基于知识点关联的试题网络；
S4、根据错题集和已构建的试题网络进行试题推荐。

2.根据权利要求1所述的一种基于信息抽取和知识图谱的试题推荐方法，其特征在于，所述步骤S1中对试题文本进行进行实体识别，具体步骤包括：
S1-1、设计实体类别，并对试题文本进行实体标注，形成数据集；
S1-2、构建深度学习神经网络模型，并在步骤S1-1中的数据集进行训练，并保存训练好的神经元之间的权重系数在内的模型参数；
S1-3、用步骤S1-2中训练好的神经网络模型对未标注的试题文本进行实体标注。

3.根据权利要求2所述的一种基于信息抽取和知识图谱的试题推荐方法，其特征在于，所述步骤S2中对试题文本进行进行实体关系抽取，具体步骤包括：
S2-1、设计实体关系类别，并对试题文本进行实体关系标注，形成数据集；
S2-2、构建深度学习神经网络模型，并在步骤S2-1中的数据集进行训练，并保存训练好的神经元之间的权重系数在内的模型参数；
S2-3、用步骤S2-2中训练好的神经网络模型对未进行关系抽取的试题文本进行实体关系抽取。

4.根据权利要求3所述的一种基于信息抽取和知识图谱的试题推荐方法，其特征在于，所述步骤S3中基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点，构建试题的知识图谱，具体步骤包括：
S3-1、基于步骤S1和S2抽取到的实体及实体关系，确定试题与三元组知识点之间的映射关系，并统计同一试题中出现三元组知识点的总个数，并统计各个三元组知识点在同一试题中出现的次数，从而构建好以各个三元组知识点和试题为节点，对应知识点在试题中知识点总占比为边的试题知识图谱；
S3-2、基于步骤S3-1构造的试题知识图谱，构造基于知识点关联的试题网络，以衡量试题间的关联程度。

5.根据权利要求4所述的一种基于信息抽取和知识图谱的试题推荐方法，其特征在于，所述步骤S3-1知识点占比的计算方法如下：

其中Ni表示三元组知识点i在试题j中的次数，Mj为试题j中统计的所有三元组知识点的个数，相同三元组也算在统计数里面，Si,j表示三元组知识点i在试题j中所有三元组知识点的占比。

6.根据权利要求4所述的一种基于信息抽取和知识图谱的试题推荐方法，其特征在于，所述步骤S3-2节点间的距离计算公式如下：

...

【专利技术属性】
技术研发人员：张毅，王爽胜，何彬，叶培明，李克强，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人