基于信息抽取和知识图谱的试题推荐方法技术

技术编号:29586037 阅读:22 留言:0更新日期:2021-08-06 19:45
本发明专利技术请求保护一种基于信息抽取和知识图谱的试题推荐方法,包括步骤:通过神经网络模型对试题进行实体识别和实体关系抽取,得到试题所考查的三元组知识点,形成试题知识图谱;根据已构建的试题知识图谱,构建基于三元组知识点关联的试题网络;根据错题以及试题网络进行试题推荐。本发明专利技术通过神经网络模型对试题进行知识点自动化提取,能有效节省人工,同时避免人工的主观性偏差,另外本发明专利技术抽取到的三元组知识点较章节大知识点,以及关键词知识点更加精细,同时考虑试题背后考查知识点之间的组合关系,构建试题网络,将试题间基于知识点的关联程度数字化、精细化,并根据错题和试题间精细化的关联信息,进行试题推荐,使得试题推荐结果更加准确。

【技术实现步骤摘要】
基于信息抽取和知识图谱的试题推荐方法
本专利技术属于计算机软件
,具体涉及一种基于信息抽取和知识图谱的试题推荐方法。
技术介绍
随着互联网技术的发展,信息的爆炸式的增长使得网络中信息泛滥问题变得特别严重,对于用户来说从海量数据中寻找对于自己有价值的数据显得十分困难。近年来,鉴于推荐技术在各个领域均有较大的价值,各行各业的专家学者都投身于推荐技术的研究中去。在教育领域,当前有很多线上题库网站,能辅助学生进行课外学习,以达到更好的学习效果,但如何在海量的试题中找到对于自己有价值的试题显得十分困难。一方面这些平台的运营和维护需要耗费大量的人工成本,同时存在人为主观因素的影响。因此如何让计算机去阅读并理解知识,实现教育资源的自动化整合显得十分重要。另一方面试题知识点的抽取是进行试题推荐的基础,但现有试题知识点的抽取方法比较粗糙,比如按章节知识点划分或者通过分词得到关键词,然后通过人工筛选关键词作为知识点,这些方法对试题知识点的提取比较粗糙,基于粗糙知识点的试题知识点提取将影响到后续推荐方法的效果。此外,目前主流推荐方法中主要有基于规则的推荐技术、基于内容的推荐技术和协同过滤技术。基于规则的推荐技术,过度依赖于专业领域的语言专家定义语法规则,需要耗费大量时间来提取规则,人工成本太高,同时迁移成本巨大。基于内容的推荐对复杂属性的处理不够友好,同时对新用户不能产生好的推荐。基于协同过滤,认知诊断等推荐方法,推荐与错题极其相似的试题。这样的推荐结果很可能导致用户重复做相似或者相同的题,而忽略了试题背后考查知识点与知识点的组合关系,降低了用户的学习效率,同时存在由于数据稀疏性带来的冷启动问题。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种基于信息抽取和知识图谱的试题推荐方法。本专利技术的技术方案如下:一种基于信息抽取和知识图谱的试题推荐方法,其包括以下步骤:S1、采用深度学习方法中的神经网络模型对试题文本进行实体识别;S2、采用深度学习方法中的神经网络模型对试题文本进行实体关系抽取;S3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,并构造基于知识点关联的试题网络;S4、根据错题集和已构建的试题网络进行试题推荐。进一步的,所述步骤S1中对试题文本进行进行实体识别,具体步骤包括:S1-1、设计实体类别,并对试题文本进行实体标注,形成数据集;S1-2、构建深度学习神经网络模型,并在步骤S1-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;S1-3、用步骤S1-2中训练好的神经网络模型对未标注的试题文本进行实体标注。进一步的,所述步骤S2中对试题文本进行进行实体关系抽取,具体步骤包括:S2-1、设计实体关系类别,并对试题文本进行实体关系标注,形成数据集;S2-2、构建深度学习神经网络模型,并在步骤S2-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;S2-3、用步骤S2-2中训练好的神经网络模型对未进行关系抽取的试题文本进行实体关系抽取。进一步的,所述步骤S3中基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,具体步骤包括:S3-1、基于步骤S1和S2抽取到的实体及实体关系,确定试题与三元组知识点之间的映射关系,并统计同一试题中出现三元组知识点的总个数,并统计各个三元组知识点在同一试题中出现的次数,从而构建好以各个三元组知识点和试题为节点,对应知识点在试题中知识点总占比为边的试题知识图谱;S3-2、基于步骤S3-1构造的试题知识图谱,构造基于知识点关联的试题网络,以衡量试题间的关联程度。进一步的,所述步骤S3-1知识点占比的计算方法如下:其中Ni表示三元组知识点i在试题j中的次数,Mj为试题j中统计的所有三元组知识点的个数,相同三元组也算在统计数里面,Si,j表示三元组知识点i在试题j中所有三元组知识点的占比。进一步的,所述步骤S3-2节点间的距离计算公式(Li,j为试题i与试题j之间基于知识点的关联程度,即距离)如下:其中,Ci,j表示:试题i,j共有的三元组知识点集合;Li,j表示试题i与试题j之间基于知识点的关联程度即距离,Sm,i表示三元组知识点m在试题i中所有三元组知识点的占比,Sm,j表示三元组知识点m在试题j中所有三元组知识点的占比,m为Ci,j中的三元组知识点,Sp,i表示三元组知识点p在试题i中所有三元组知识点的占比,Sq,j分别表示三元组知识点q在试题i中所有三元组知识点的占。Scom(i,j)表示试题i与试题j之间三元组知识点相似度;Ecom(i,j)表示试题i与试题j中排除共有三元组知识点后,剩余三元组中的实体相似度,α为权重系数;Di,j:表示在Bi,j中,且与Bj,i中的三元组具有相同实体的三元组集合;Dj,i:表示在Bj,i中,且与Bi,j中的三元组具有相同实体的三元组集合;Bi,j:表示排除试题i与试题j公有的三元组知识点后,试题i中的其它三元组的集合;Bj,i:表示排除试题i与试题j公有的三元组知识点后,试题j中的其它三元组的集合;Ep,q:表示三元组p与三元组q具有的相同实体的个数。进一步的,在计算Ecom(i,j)之前,要进行实体的语义的相似度分析,即通过bert语言预训练模型得到字的词向量表示,从而得到实体的向量表示,通过实体向量的余弦相似度来判断实体之间的相似度,余弦相似度计算公式如下:其中,M,N分别表示两个实体的向量表示,sim(M,N)表示两实体的余弦相似度,其取值范围为[-1,1]当两实体的余弦相似度大于0.8时,判定两实体相同。进一步的,所述步骤S4中根据错题集和已构建的试题网络进行试题推荐具体包括以下步骤:S4-1、根据错题集x,错题集的大小为m,得到错题集中与第n的错题相邻的所有错题的集合Dn;S4-2、得到所有与错题相邻并且非错题集x中的错题所组成的错题集合C,并计算集合C中的元素ci出现在D1-Dm中的频次S4-3、遍历C中的元素,找到具有相同的元素,组成同频集合TF;S4-4、计算Zj表示同频集合中的试题j与错题集中错题的距离之和。其中,X表示错题集合,集合中元素个数为m;dij:表示试题i与试题j间的距离,即基于知识点的关联程度;Dn:表示第n个错题与其相邻的试题集合;C:C=D1∪D2...∪Dm-X,表示所有与错题有关联的试题的集合,并排除其中与错题集X中相同的元素;表示集合c中的元素ci出现在D1-Dm中的频次;TF:表示集合c中相同的项组成的集合。S4-5、对于不同频数的TF集合按照频数从高到低排序,TF中的试题按照Zj从大到小排序,以此得到试题集合C中所有试题的排序,取前k本文档来自技高网
...

【技术保护点】
1.一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,包括以下步骤:/nS1、采用基于深度学习方法中的神经网络模型对试题文本进行实体识别;/nS2、采用基于深度学习方法中的神经网络模型对试题文本进行实体关系抽取;/nS3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,并构造基于知识点关联的试题网络;/nS4、根据错题集和已构建的试题网络进行试题推荐。/n

【技术特征摘要】
1.一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,包括以下步骤:
S1、采用基于深度学习方法中的神经网络模型对试题文本进行实体识别;
S2、采用基于深度学习方法中的神经网络模型对试题文本进行实体关系抽取;
S3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,并构造基于知识点关联的试题网络;
S4、根据错题集和已构建的试题网络进行试题推荐。


2.根据权利要求1所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S1中对试题文本进行进行实体识别,具体步骤包括:
S1-1、设计实体类别,并对试题文本进行实体标注,形成数据集;
S1-2、构建深度学习神经网络模型,并在步骤S1-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;
S1-3、用步骤S1-2中训练好的神经网络模型对未标注的试题文本进行实体标注。


3.根据权利要求2所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S2中对试题文本进行进行实体关系抽取,具体步骤包括:
S2-1、设计实体关系类别,并对试题文本进行实体关系标注,形成数据集;
S2-2、构建深度学习神经网络模型,并在步骤S2-1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;
S2-3、用步骤S2-2中训练好的神经网络模型对未进行关系抽取的试题文本进行实体关系抽取。


4.根据权利要求3所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S3中基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,具体步骤包括:
S3-1、基于步骤S1和S2抽取到的实体及实体关系,确定试题与三元组知识点之间的映射关系,并统计同一试题中出现三元组知识点的总个数,并统计各个三元组知识点在同一试题中出现的次数,从而构建好以各个三元组知识点和试题为节点,对应知识点在试题中知识点总占比为边的试题知识图谱;
S3-2、基于步骤S3-1构造的试题知识图谱,构造基于知识点关联的试题网络,以衡量试题间的关联程度。


5.根据权利要求4所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S3-1知识点占比的计算方法如下:



其中Ni表示三元组知识点i在试题j中的次数,Mj为试题j中统计的所有三元组知识点的个数,相同三元组也算在统计数里面,Si,j表示三元组知识点i在试题j中所有三元组知识点的占比。


6.根据权利要求4所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S3-2节点间的距离计算公式如下:








...

【专利技术属性】
技术研发人员:张毅王爽胜何彬叶培明李克强
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1