【技术实现步骤摘要】
将英文视频或文本难度对标至国内1
‑
9年级的方法和系统
[0001]本专利技术涉及英文视频难度分级,尤其涉及一种将英文视频难度对标至国内年级的系统和方法。
技术介绍
[0002]现有技术中有国内外英文学习软件可将英文文本的难度对标到CEFR的各难度级别。CEFR全称为Common European Framework of Reference for Language,即欧洲共同语言参考标准,是欧洲委员会在2001年11月通过的一套建议标准,用于描述外语学习者语言能力程度的标准体系,成为全球通用的语言能力分级的重要参考依据,被全球各类教育机构、企业及政府部门广泛认可及使用,为各国开展语言设计、语言测试及教材编纂工作提供指导依据。但是,针对中国教育体制内,如从高中到大学,将视频难度定级到体制内年级,这种分级和对标的方法目前国内尚属空白。国内各年级学生选取适合的学习材料时,缺乏类似的难度分级、对标的方法和工具为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。
[0003]而且,文本定级工 ...
【技术保护点】
【技术特征摘要】
1.一种将英文视频或文本难度对标至国内1
‑
9年级的方法,其特征在于,包括步骤:(1)选取变量:设年级为因变量y;自变量包括:语速、去重单词数、句子净长度;T
‑
unit的长度;从句的净长度;T
‑
unit的动词短语数量;每个T
‑
unit的从句数量;每个从句的从句数量;每个句子的T
‑
unit数量;每个从句的并列短语;每个T
‑
unit的复合名词数量;每个从句的复合名词;Dale
‑
ChallFinal Score;Lix指数;SMOG指数;句子数;复杂单词数;平均每单词音节数和初始年级;(2)建立模型:采用多分类逻辑回归模型:其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;(5)将预测概率中最大值对应的年级为模型预测的年级。2.如权利要求1所述的将英文视频或文本难度对标至国内1
‑
9年级的方法,其中,步骤(3)中,将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。3.如权利要求2所述的将英文视频或文本难度对标至国内1
‑
9年级的方法,其中,步骤(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:(3)中,得到各年级的预测概率公式为:其中,G1==30.868
‑
0.606*words+0.433*mls+0.961*mlt
‑
1.025*mlc+2.456*vp_t
‑
4.832*
c_t
‑
32.697*dc_c+3.948*t_s+8.067*cp_c
‑
8.859*cn_t+10.375*cn_c+0.054*lix
‑
0.433*complex_words
‑
1.253*smog+0.223*sentences
‑
4.586*syllables
‑
0.116*Dale_Chall
‑
8.688*IF(y0=2,1,0)
‑
7.859*IF(y0=5,1,0)
‑
37.75*IF(y0=8,1,0)+22.599*IF(speed=1,1,0)+19.187*IF(speed=2,1,0)+10.978*IF(speed=3,1,0)+6.09*IF(speed=4,1,0);G2==20.574
‑
0.334*words+0.642*mls
‑
0.079*mlt
‑
0.427*mlc+2.439*vp_t
‑
1.165*c_t
‑
134.456*dc_c+3.861*t_s+6.729*cp_c
‑
6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words
‑
1.72*smog+0.072*sentences
‑
1.978*syllables
‑
0.249*Dale_Chall+3.871*IF(y0=2,1,0)+4.423*IF(y0=5,1,0)
‑
20.39*IF(y0=8,1,0)+13.356*IF(speed=1,1,0)+9.44*IF(speed=2,1,0)+1.439*IF(speed=3,1,0)
‑
3.449*IF(speed=4,1,0);G3==17.385
‑
0.179*words+0.669*mls+0.585*mlt
‑
0.885*mlc+4.432*vp_t
‑
6.648*c_t
‑
19.448*dc_c+4.125*t_s+6.587*cp_c
‑
8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words
‑
1.41*smog
‑
0.081*sentences
‑
1.827*syllables
‑
0.134*Dale_Chall+6.186*IF(y0=2,1,0)+11.125*IF(y0=5,1,0)
‑
19.607*IF(y0=8,1,0)+10.135*IF(speed=1,1,0)+6.488*IF(speed=2,1,0)
‑
0.992*IF(speed=3,1,0)
‑
4.787*IF(speed=4,1,0);G4==9.384
‑
0.123*words+0.482*mls+0.336*mlt
‑
0.616*mlc+4.752*vp_t
‑
4.257*c_t
‑
18.139*dc_c+3.224*t_s+4.379*cp_c
‑
10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words
‑
1.295*smog
‑
0.168*sentences
‑
2.325*syllables
‑
0.114*Dale_Chall
‑
7.526*IF(y0=2,1,0)+7.533*IF(y0=5,1,0)
‑
3.475*IF(y0=8,1,0)+21.019*IF(speed=1,1,0)+16.461*IF(speed=2,1,0)+8.124*IF(speed=3,1,0)+5.528*IF(speed=4,1,0);G5==5.536
‑
0.097*words+0.389*mls+0.461*mlt
‑
0.642*mlc+4.015*vp_t
‑
4.184*c_t
‑
15.03*dc_c+4.929*t_s+6.921*cp_c
‑
7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words
‑
1.731*smog
‑
0.178*sentences
‑
1.315*syllables
‑
0.211*Dale_Chall
‑
4.322*IF(y0=2,1,0)+8.285*IF(y0=5,1,0)
‑
2.026*IF(y0=8,1,0)+19.732*IF(speed=1,1,0)+16.188*IF(speed=2,1,0)+7.261*IF(speed=3,1,0)+4.512*IF(speed=4,1,0);G6==1.713
‑
0.073*words+0.604*mls+0.768*mlt
‑
0.803*mlc+2.102*vp_t
‑
4.457*c_t
‑
11.419*dc_c+4.874*t_s+4.934*cp_c
‑
10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words
‑
1.507*smog
‑
0.151*sentences+1.983*syllables+0.047*Dale_Chall
‑
6.355*IF(y0=2,1,0)+10.132*IF(y0=5,1,0)
‑
2.494*IF(y0=8,1,0)
‑
4.753*IF(speed=1,1,0)+14.116*IF(speed=2,1,0)+5.056*IF(speed=3,1,0)+2.479*IF(speed=4,1,0);G7==20.009
‑
0.103*words+0.172*mls+0.75*mlt
‑
0.617*mlc
‑
1.009*vp_t
‑
6.231*c_t
‑
7.857*dc_c+0.411*t_s+2.131*cp_c
‑
9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words
‑
2.066*smog
‑
0.121*sentences+0.13*syllables
‑
0.379*Dale_Chall+5.83*IF(y0=2,1,0)+0.753*IF(y0=5,1,0)
‑
1.787*IF(y0=8,1,0)+17.253*IF(speed=1,1,0)+13.987*IF(speed=2,1,0)+3.263*IF(speed=3,1,0)+2.166*IF(speed=4,1,0);G8==23.876
‑
0.023*words+0.677*mls
‑
1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t
‑
9.51*dc_c
‑
3.392*t_s+1.945*cp_c+3.216*cn_t
‑
4.418*cn_c+0.039*lix+0.33*complex_words
‑
1.783*smog
‑
0.184*sentences+1.966*syllables
‑
0.035*Dale_Chall
‑
13.891*IF(y0=2,1,0)
‑
9.958*IF(y0=5,1,0)
‑
19.968*IF(y0=8,1,0)
‑
18.54*IF(speed
=1,1,0)+2.141*IF(speed=2,1,0)+0.936*IF(speed=3,1,0)+0.082*IF(speed=4,1,0);G9=0;其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;其中,speed为语速;words为去重单词数;mls为句子净长度;mlt为T
‑
unit的长度;mlc为从句的净长度;vp_t为T
‑
unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T
‑
unit数量;ct_t为复杂T
‑
unit的数量;cp_c每个从句的并列短语数量;cn_t每个T
‑
unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为Automated Readability指数;Dale_Chall为Dale
‑
Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每...
【专利技术属性】
技术研发人员:曹魏,洪来君,倪巧,张珊珊,
申请(专利权)人:杭州菲助科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。