一种无监督的英文写作切题评估方法及其系统和设备技术方案

技术编号:33135290 阅读:13 留言:0更新日期:2022-04-17 00:59
本发明专利技术公开一种无监督的英文写作切题评估方法,包括如下步骤:人工输入参考关键词,或通过Text Rank算法从输入的范文中获取参考关键词;通过Text Rank算法从待评估作文中获取作文关键词;使用BERT预训练模型将参考关键词和作文关键词均转为词向量;利用余弦相似度计算参考关键词和作文关键词间的相似度;获得参考关键词与作文关键词间最大相似度,计算平均相似度,映射成切题分数。通过本发明专利技术的方法无需标注训练语料,高效快捷;同时相较于仅凭文本是否存在关键词判断切题与否的方法,本方法通过双向提取关键词的方式有效地避免误判和漏判,并通过计算计算语义相似度的方式,进一步确保切题评价的准确度。步确保切题评价的准确度。步确保切题评价的准确度。

【技术实现步骤摘要】
一种无监督的英文写作切题评估方法及其系统和设备


[0001]本专利技术属于数据处理
,具体的是涉及一种自动评估英文写作的切题评估方法。

技术介绍

[0002]在英文写作考试或者比赛中,要对学生英语作文进行全面的评估,除了需要对拼写、语法、可读性等语言层面评估外,还需要对作文的切题程度进行评估打分,打分的结果会做为一个重要的指标反馈到考生的写作成绩中。
[0003]传统的人工阅卷方式准确虽然高,但效率低下,尤其是面对大型的英语考试时,人工阅卷严重拖慢了批改效率。针对这一情况,目前也有一些通过计算机进行辅助阅卷评估英文写作切题程度的方法,预先设定一定的关键字,然后计算机扫描英文写作,计算该写作中与预先设定的关键字之间的关联度,关联度越高,作文越切题。但这种方法需要预先向计算机中输入关键词,人工干预仍然占据主导,评估结果的准确度依赖于关键的准确度与完整度,这就会导致在评估中容易出现关键词误判和漏判的可能性。

技术实现思路

[0004]专利技术目的:本专利技术目的在于针对现有技术的不足,提供一种无监督的英文写作切题评估方法,无需标注训练语料的同时,有效地避免误判和漏判。
[0005]技术方案:本专利技术所述无监督的英文写作切题评估方法,包括如下步骤:
[0006]S1、人工输入参考关键词,或通过TextRank算法从输入的范文中获取参考关键词;通过TextRank算法从待评估作文中获取作文关键词;
[0007]S2、使用BERT预训练模型将参考关键词和作文关键词均转为词向量;
[0008]S3、利用余弦相似度计算参考关键词和作文关键词间的相似度;
[0009]S4、获得参考关键词与作文关键词间最大相似度,计算平均相似度,映射成切题分数。
[0010]本专利技术进一步优选地技术方案为,步骤S1中通过Text Rank算法获取参考关键词或作文关键词的具体方法为:
[0011]S11、对用户提供的范文或待评估作文进行分词,剔除停用词,建立基于范文或待评估作文的词表;
[0012]S12、以单词作为节点,单词之间的共现频次作为边权重,建立有向图,设置共现窗口长度为5个单词,对于任意连续5个单词,这5个单词之间视为共现;
[0013]S13、初始化单词节点分数为N为词表大小,根据公式(1)更新每个单词节点的分数,直至分数收敛;
[0014][0015]其中,score
i
是第i个单词节点分数,score
j
是第j个单词节点分数;IN(i)为节点i
的所有入边的节点集合,节点i的入边是指边从其他节点出发,指向节点i;节点j从属于IN(i);w
ji
为节点j到节点i的入边权重,即共现频次;OUT(j)是节点j的所有出边的节点集合,节点j的出边是指从节点j出发,指向其他节点,节点k从属于OUT(j),w
jk
为节点j到节点k的出边权重;d是平滑系数,取0.8,用于避免分数为0;
[0016]S14、对所有单词节点根据分数进行降序排列,选取前若干个单词作为关键词,如果关键词相邻,则合并为关键词组。
[0017]作为优选地,步骤S2中将参考关键词或作文关键词均转为词向量的方法为:
[0018]利用BERT的预训练模型,将参考关键词或作文关键词进行词嵌入操作,每个关键词映射成768维的词向量v
i
,对一个关键词的M个词向量进行取均值的池化操作,最终得到一个768维的关键词向量V,计算公式如公式(2),
[0019][0020]优选地,步骤S2获得n个参考关键词向量和m个作文关键词向量,使用余弦距离计算参考关键词和作文关键词的相似度,得到n行m列的相似度矩阵S,如公式(3),
[0021][0022][0023]优选地,步骤S4的具体方法为:
[0024]在n个参考关键词,在m个作文关键词中,分别找到n个相似度最大的关键词,对若干个最大相似度取均值,将平均相似度映射到0至100的切题分数,如公式(4),
[0025][0026]本专利技术的无监督的英文写作切题评估系统,包括:
[0027]关键词获取模块,设置文本输入接口和OCR扫描接口,通过文本输入或OCR识别的方式获取范文和待评估作文,并通过Text Rank算法获取参考关键词和作文关键词;
[0028]关键词相似度对比模块,接收关键词获取模块发送的参考关键词和作文关键词数据,并进行处理转换为参考关键词向量和作文关键词向量,计算参考关键词和作文关键词间的相似度,形成相似度矩阵;
[0029]输出打分模块,接收关键词相似度对比模块输入的相似度矩阵,获得参考关键词与作文关键词的最大相似度,计算平均相似度,并映射成切题分数后输出至显示设备。
[0030]本专利技术的无监督的英文写作切题评估设备,该设备的计算机搭载上述的无监督的英文写作切题评估系统。
[0031]有益效果:本专利技术将切题程度操作化定义为,提取学生英语作文的关键词,计算给定关键词或通过给定范文提取的关键词与英文作文关键词的语义关联程度,作文关键词与参考关键词的语义关联程度越高,作文越切题,通过本专利技术的方法无需标注训练语料,高效快捷;同时相较于仅凭文本是否存在关键词判断切题与否的方法,本方法通过双向提取关键词的方式有效地避免误判和漏判,并通过计算计算语义相似度的方式,进一步确保切题评价的准确度。
附图说明
[0032]图1为本专利技术的评估方法的流程图。
具体实施方式
[0033]下面通过附图对本专利技术技术方案进行详细说明,但是本专利技术的保护范围不局限于所述实施例。
[0034]实施例1:一种无监督的英文写作切题评估方法,包括如下步骤:
[0035]S1、人工输入参考关键词,或通过Text Rank算法从输入的范文中获取参考关键词;通过Text Rank算法从待评估作文中获取作文关键词;具体方法为:
[0036]S11、对用户提供的范文或待评估作文进行分词,剔除停用词,建立基于范文或待评估作文的词表;
[0037]S12、以单词作为节点,单词之间的共现频次作为边权重,建立有向图,设置共现窗口长度为5个单词,对于任意连续5个单词,这5个单词之间视为共现;
[0038]S13、初始化单词节点分数为N为词表大小,根据公式(1)更新每个单词节点的分数,直至分数收敛;
[0039][0040]其中,score
i
是第i个单词节点分数,score
j
是第j个单词节点分数;IN(i)为节点i的所有入边的节点集合,节点i的入边是指边从其他节点出发,指向节点i;节点j从属于IN(i);w
ji
为节点j到节点i的入边权重,即共现频次;OUT(j)是节点j的所有出边的节点集合,节点j的出边是指从节点j出发,指向其他节点,节点k从属于OUT(j),w
jk
为节点j到节点k的出边权重;d本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无监督的英文写作切题评估方法,其特征在于,包括如下步骤:S1、人工输入参考关键词,或通过Text Rank算法从输入的范文中获取参考关键词;通过Text Rank算法从待评估作文中获取作文关键词;S2、使用BERT预训练模型将参考关键词和作文关键词均转为词向量;S3、利用余弦相似度计算参考关键词和作文关键词间的相似度;S4、获得参考关键词与作文关键词间最大相似度,计算平均相似度,映射成切题分数。2.根据权利要求1所述的无监督的英文写作切题评估方法,其特征在于,步骤S1中通过Text Rank算法获取参考关键词或作文关键词的具体方法为:S11、对用户提供的范文或待评估作文进行分词,剔除停用词,建立基于范文或待评估作文的词表;S12、以单词作为节点,单词之间的共现频次作为边权重,建立有向图,设置共现窗口长度为5个单词,对于任意连续5个单词,这5个单词之间视为共现;S13、初始化单词节点分数为N为词表大小,根据公式(1)更新每个单词节点的分数,直至分数收敛;其中,score
i
是第i个单词节点分数,score
j
是第j个单词节点分数;IN(i)为节点i的所有入边的节点集合,节点i的入边是指边从其他节点出发,指向节点i;节点j从属于IN(i);w
ji
为节点j到节点i的入边权重,即共现频次;OUT(j)是节点j的所有出边的节点集合,节点j的出边是指从节点j出发,指向其他节点,节点k从属于OUT(j),w
jk
为节点j到节点k的出边权重;d是平滑系数,取0.8,用于避免分数为0;S14、对所有单词节点根据分数进行降序排列,选取前若干个单词作为关键词,如果关键词相邻,则合并为关键词组。3.根据权利要...

【专利技术属性】
技术研发人员:陈件潘丽婷张井
申请(专利权)人:南京题麦壳斯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1