一种汉语二语作文自动评分方法技术

技术编号:30553694 阅读:38 留言:0更新日期:2021-10-30 13:34
本发明专利技术提出一种汉语二语作文自动评分方法,包括抽取作文的语言特征、多粒度文本表示特征和切题特征;将所述语言特征输入评分模型,获得分数,其中,语言特征包括语言复杂度特征、语言偏误特征。本发明专利技术针对汉语二语评分设计了较为全面的、多维度的作文评分显式特征集,并通过有序逻辑回归分析获得评价模型,该评价模型的评分与人类评分员评分有较好的一致性和相关性,可以科学、高效地衡量汉语二语作文的质量和水平。作文的质量和水平。作文的质量和水平。

【技术实现步骤摘要】
一种汉语二语作文自动评分方法


[0001]本专利技术涉及人工智能
,更具体地,涉及一种汉语二语作文自动评分方法。

技术介绍

[0002]随着中国经济快速发展和国际地位的日益提高,世界范围内学习汉语的人数不断增加,汉语二语教学受到了越来越多的关注。在二语教学中,写作是一个核心模块,因为作文可以综合反映写作者词汇、句法、行文组织等多个方面的语言知识水平及运用能力。随着自然语言处理技术及相关语言资源的发展,写作能力测试及评估逐步向信息化、智能化发展。
[0003]美国教育考试服务中心(ETS)自1999年以来便开始使用作文自动评分系统,并陆续于2003年和2006年发布了更新版本,之后也一直在优化相应系统,该系统已被广泛应用于GMAT、托福等考试中作文的备考和批改。该系统包含两个功能,一个是评分引擎,主要实现自动对学生作文进行评分;另一个是反馈模块,对作文的词汇、语法错误进行评估并提供反馈,并且支持识别文章的语篇结构和不良的文体特征等。系统从训练数据中抽取了50多个特征,使用逐步线性回归来选择对作文分数预测有显著贡献的特征。对于每个作文题目,训练得到一个回归方程。将相应主题下新作文的对应特征值带入方程便可得到该作文分数的预测值,将其四舍五入得到一个整数分数。
[0004]中国科学院自动化所于2011年开发了一种面向少数民族汉语水平考试(MHK)作文的自动评分模型。该模型对ETS的词汇评分机制进行了改进,并在词汇评分的基础上,抽取了与主题内容和文章条理相关的一些简单特征,建立了较为全面的少数民族汉语作文评分体系。
[0005]新加坡国立大学的Taghipour和Ng在2016年在英文ASAP作文数据集的基础上开发了一种基于卷积神经网络(CNN)和循环神经网络(LSTM)的作文自动评分模型,该模型隐式地抽取作文特征抽取,以神经网络各层参数的形式将学习到的特征保存下来,作为评分的依据,该模型简单而有效,后续很多基于神经网络的作文自动评分的模型都是在该模型的基础上改进得到的。
[0006]哈工大讯飞联合实验室在2020年开发了一种面向中国高考作文评分的弱监督预训练作文自动评分模型。该方法采用多阶段预训练,结合多层次的监督策略,首先进行大规模粗评分有监督训练,然后引入跨主题作文训练,最后针对目标主题的数据展开训练。通过这种多阶段迁移学习的手段,大大降低了模型的训练数据成本。
[0007]北京语言大学于2020年开发了一种面向汉语二语学习者的作文自动评分系统。其设计了词汇水平、切题程度、句型难度、表达准确度、篇幅长度等特征来衡量写作质量,并提供错误点评和词汇拓展两个反馈功能。
[0008]在特征利用的层面上,目前的模型或者是隐式利用特征,或者是显式利用特征。隐式利用特征的现有技术,往往不具有可解释性或可解释性较差;显式利用特征的现有技术,往往挖掘的显性特征较少或较浅层,难以全面、准确地描述作文特点。同时,现有的研究方
法主要面向母语作文评分,个别涉及少数民族和二语作文评分,在特征设计上均未考虑到汉语二语写作的特点。
[0009]另外,现有的方法大部分需要区分作文主题构建自动评分模型,这使得模型在面对新题目的作文时,因为难以获得足够的与新题目相关的训练数据,而难以处理。

技术实现思路

[0010]为克服现有技术的上述缺陷,本专利技术意在构建一套多层次的显式特征和对新主题不敏感的模型,充分考虑汉语二语习得中的重点和难点,以更好地服务于汉语二语作文的质量评估,适用于日常话题下各种主题的议论文和记叙文评分。
[0011]根据本专利技术,提出了一种汉语二语作文自动评分方法,包括:
[0012]S1、抽取作文的语言特征;
[0013]S2、抽取多粒度文本表示特征;
[0014]S3、抽取切题特征;
[0015]S4、将所述语言特征输入评分模型,获得分数。
[0016]进一步地,语言特征包括语言复杂度特征、语言偏误特征;所述语言复杂度特征包含字词复杂度特征、句法复杂度特征、依存复杂度特征和语法点复杂度特征。
[0017]进一步地,句法复杂度特征,用于从语句、搭配、二元组三个维度对作文进行衡量,语句维度的特征包括平均大句长、平均小句长、平均T单位长、平均小句数、平均T单位数,搭配维度的特征包括整体搭配的多样性、跨语言通用搭配的多样性、汉语特有搭配的多样性、每类句法搭配的多样性、低频搭配比例、汉语特有搭配比例、二元组的多样性和低频二元组比例。
[0018]进一步地,依存复杂度特征,用于反映句法结构中词与词之间的关系,包括每种依存类型三元组的多样性、比例和平均依存距离、依存三元组多样性、低频依存三元组比例、所有三元组的平均依存距离、定中三元组多样性、状中三元组多样性、动宾三元组多样性、定中三元组多样性、动宾结构的平均距离、主谓结构的平均距离、依存关系的多样性、高级依存三元组的比例。
[0019]进一步地,语法点复杂度特征,用于捕捉二语作文句法复杂度和成熟度;优选的,包括10个语法点比例和11个语法点密度。
[0020]进一步地,句法搭配类型包括动宾搭配、主谓搭配、形名搭配、状中搭配、量名搭配、框式介词搭配、介动搭配、述补搭配。
[0021]进一步地,所述低频二元组比例的获取方法包括:
[0022]通过外部教材语料库提取二元组及其频次,并设定阈值;
[0023]将外部教材语料库中频次低于阈值的二元组界定为低频二元组;
[0024]计算作文文本中的低频二元组占比;
[0025]所述低频依存三元组比例的获取方法包括:
[0026]通过外部教材语料库提取三元组及其频次,并设定阈值;
[0027]将外部教材语料库中频次低于阈值的三元组界定为低频三元组;
[0028]计算作文文本中的低频三元组占比。
[0029]进一步地,所述多粒度文本复杂度特征的获取方法包括:
[0030]提取作文中汉字、词汇和词性的一元组、二元组和三元组;
[0031]计算汉字、词汇和词性的一元组、二元组和三元组的TF

IDF权重;
[0032]使用TF

IDF权重对汉字、词汇和词性的一元组、二元组和三元组进行加权表示,从而获得作文的文本向量表示。
[0033]进一步地,所述将作文题目和作文语句输入切题模型获取所述切题特征,所述切题模型为二分类模型,优选的,所述切题模型由顺次连接的BERT模型和全连接层构成的,激活函数为sigmoid函数;优选的,切题模型的训练方法包括:
[0034]将训练集中“原作文题目+该题目下正文”视为正例,将“随机选取一个其他题目+原题目下的正文”视为负例,随机采样构造第一正负样本;
[0035]将训练集中“原作文题目+该题目下正文中句子”视为正例,将“随机选取一个其他题目+原题目下的正文中句子”视为负例,构造第二正负样本;
[0036]使用第一正负样本训练切题模型,从而得到切题模型的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种汉语二语作文自动评分方法,包括:S1、抽取作文的语言特征;S2、抽取多粒度文本表示特征;S3、抽取切题特征;S4、将语言特征、多粒度文本表示特征和切题特征输入评分模型,获得分数。2.根据权利要求1所述的评分方法,其中,所述语言特征包括语言复杂度特征和语言偏误特征;所述语言复杂度特征包含字词复杂度特征、句法复杂度特征、依存复杂度特征和语法点复杂度特征。3.根据权利要求2所述的评分方法,其中,句法复杂度特征,用于从语句、搭配、二元组三个维度对作文进行衡量,语句维度的特征包括平均大句长、平均小句长、平均T单位长、平均小句数、平均T单位数,搭配维度的特征包括整体搭配的多样性、跨语言通用搭配的多样性、汉语特有搭配的多样性、每类句法搭配的多样性、低频搭配比例、汉语特有搭配比例、二元组的多样性和低频二元组比例。4.根据权利要求2所述的评分方法,其中,依存复杂度特征,用于反映句法结构中词与词之间的关系,包括每种依存类型三元组的多样性、比例和平均依存距离、依存三元组多样性、低频依存三元组比例、所有三元组的平均依存距离、定中三元组多样性、状中三元组多样性、动宾三元组多样性、定中三元组多样性、动宾结构的平均距离、主谓结构的平均距离、依存关系的多样性、高级依存三元组的比例。5.根据权利要求2所述的评分方法,其中,语法点复杂度特征,用于捕捉二语作文句法复杂度和成熟度;优选的,包括10个语法点比例和11个语法点密度。6.根据权利要求3所述的评分方法,其中,句法搭配类型包括动宾搭配、主谓搭配、形名搭配、状中搭配、量名搭配、框式介词搭配、介动搭配、述补搭配。7.根据权利要求3所述的评分方法,其中,所述低频二元组比例的获取方法包括:通过外部教材语料库提取二元组及其频次,并设定阈值;将外部教材语料库中频次低于阈值的二元组界定为低频二元组;计算作文文本中的低频二元组占比;所述低频依存三元组比例的获取方法包括:通过外部教材语料库提取三元组及其频次,并设定阈值;将外部教材语料库中频次低于阈值的三元组界定为低频三元组;计算作文文本中的低频三元组占比。8.根据权利要求1所述的评分方法,其中,在步骤S2中,所述多粒度文本表示特征的获取方法包括:提取作文中汉字、词汇和词性的一...

【专利技术属性】
技术研发人员:胡韧奋王予沛彭一平宾帅
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1