【技术实现步骤摘要】
结合学科同义词与词向量的相似度评分算法
本专利技术涉及自然语言处理以及机器学习领域。
技术介绍
主观题自动评分技术是实际主观题评分的关键技术,已有评分方法需要大量专家标注数据,包含基于传统机器学习方法,使用语义相似度、词项权重等特征构建随机森林分类器来预测考生分数;在不明确定义目标答案的情况下构建评分模型的基于深度自动编码器的短答案评分算法;以及利用CNN与LSTM构成的神经网络进行自动评分。为了实现网络考试的自动化,有研究者提出了基于多特征语句相似度的主观题自动阅卷模型,这种基于匹配的主观题自动评分方法,需要对词形、语义、句法等复杂特征进行人工设计与计算,匹配准确度较低,并且没有融入学科知识信息,评分准确度与机器学习、深度学习的自动评分结果相差较大,效果不理想。
技术实现思路
针对上述问题,本专利技术通过构建地理同义词词库保证学科同义词计算的准确性,并将地理知识信息融入到语料库中,使词语在向量空间的表示更符合地理学科背景,结合学科同义词与词向量实现了相似度评分算法,并通过北京市和陕西省两地区的真实考生数 ...
【技术保护点】
1.结合学科同义词与词向量的相似度评分算法,其特征在于,包括如下步骤:/n步骤一,基于词性的关键词提取及权重分配;/n步骤二,基于学科同义词的词语相似度计算;/n步骤三,基于词向量的语句相似度计算;/n步骤四,结合学科同义词与词向量的相似度评分算法。/n
【技术特征摘要】
1.结合学科同义词与词向量的相似度评分算法,其特征在于,包括如下步骤:
步骤一,基于词性的关键词提取及权重分配;
步骤二,基于学科同义词的词语相似度计算;
步骤三,基于词向量的语句相似度计算;
步骤四,结合学科同义词与词向量的相似度评分算法。
2.根据权利要求1所述的结合学科同义词与词向量的相似度评分算法,其特征在于,步骤一中所述基于词性的关键词提取及权重分配具体如下:
关键词提取算法如下:
a、算法输入:目标文本S;
b、基于地理词典,利用LTP将文本S进行分词并标注词性,参照权重分配,按词性提取关键词,得到序列Seq(x,t)={(x1,t1),(x2,t2),(x3,t3),...,(xn,tn)},其中x表示词语,t表示对词语x标注的词性;n表示词语的个数
c、遍历Seq(x,t),参照权重分配统计A类词数a,B类词数b,C类词数c;
d、计算A类词性权重wa,计算B类词性权重wb,计算C类词性权重wc;
e、遍历Seq(x,t),参照权重分配确定词性t所属类别,根据类别对词语x赋予相应的权重w,得到序列Seq(x,t,w)={(x1,t1,w1),(x2,t2,w2),(x3,t3,w3),...,(xn,tn,wn)};
f、输出:Seq(x,t,w)。
3.根据权利要求1所述的结合学科同义词与词向量的相似度评分算法,其特征在于,步骤二中所述的基于学科同义词的词语相似度计算如下:
1)算法输入:词语Word1和Word2;
2)初始化:地理同义词词库dlSym,《同义词词林》中编码为“=”的列表sym,地理语料库dlmodel;
3)遍历dlSym,查询Word1的列表dlSymList,如果dlSymList长度大于0,到4),否则,到5);
4)遍历dlSymList,查询Word2是否存在,如果存在,则wordSim(Word1,Word2)=1,到9),否则,到5);
5)遍历sym,查询Word1的列表symList,如果symList长度大于0,到6),否则,到7);
6)遍历symList,查询Word2是否存在,如果存在,则wordSim(Word1,Word2)=0.8,到9),否则,到7);
7)查询dlmodel中是否存在Word1,如果存在,到8),否则,wordSim(Word1,Word2)=0,到9);
8)查询dlmodel中是否存在Word2,如果存在,通过dlmodel计算Word1与Word2相似度dlmodelSym(Word1,Word2),则wordSim(Word1,Word2)=dlmodelSym(Word1,Word2)×0.6,到9),否则wordSim(Word1,Word2)=0,到9);
9)输出词语相似度:wordSim(Word1,Word2)。
4.根据权利要求1所述的结合学科...
【专利技术属性】
技术研发人员:付鹏斌,杨广越,杨惠荣,施建国,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。