一种自然语言语句评价方法及装置制造方法及图纸

技术编号:18525857 阅读:30 留言:0更新日期:2018-07-25 12:43
本发明专利技术实施例提供了一种自然语言语句评价方法及装置,其中方法包括:获取待评价的自然语言语句;提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。本发明专利技术提出了语句质量评价特征的概念,通过自动提取的语句质量评价特征及预先构建的语句质量评价模型,可以自动得到该语句的质量评价结果,不需要人工参与,大大提高了语句评价时的效率和准确度,也使得语句质量的评价结果也较客观。

【技术实现步骤摘要】
一种自然语言语句评价方法及装置
本专利技术涉及自然语言处理领域,尤其涉及一种自然语言语句评价方法及装置。
技术介绍
近年来,随着信息技术的迅猛发展,教育信息化也在不断推进,教育行业开始大步进入信息化时代。例如,自动阅卷系统越来越多的应用于各种考试中,以对考生的试卷进行自动评判。试卷中经常包括作文,而作文的自动评价是自动阅卷系统的主要难点之一,质量好的作文需要有质量好的句子来支撑,所以对作文进行评价时首先需要考察作文中每句文本的质量,换句话说,对句子的评价是实现作文评价的基础。该如何针对单句文本数据进行质量评价对于自动阅卷系统来说是非常迫切的需求。专利技术人在实现本专利技术的过程中发现,现有的句子质量评价方法一般是人工查看相应句子内容后,给出相应句子质量评价结果,例如对学生作文中句子进行评价时,需要老师查看相应句子内容后,给出句子质量评价结果。然而,当需要评价的句子数量过多时,人工工作量较大,句子质量评价效率很低;并且评价结果主观性较大,不同人对同一句文本数据的理解往往存在差异,导致评价结果不够客观。
技术实现思路
本专利技术提供一种自然语言语句评价方法及装置,以提高对语句进行评价时的效率及客观性。根据本专利技术实施例的第一方面,提供一种自然语言语句评价方法,所述方法包括:获取待评价的自然语言语句;提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。可选的,提取所述语句的语句语义特征,包括:计算所述语句中每个词语的词向量;将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。可选的,所述语句的语句描述特征包括以下特征中的一种或多种:语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。可选的,提取语句中高级搭配数,包括:通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;提取语句的语言模型得分,包括:根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。可选的,所述语句质量评价模型使用回归模型,所述语句的质量评价结果为所述语句的质量得分;或者,所述语句质量评价模型使用分类模型,所述语句的质量评价结果为所述语句的质量等级。可选的,获取所述语句的质量评价结果之后,所述方法还包括:获取一篇文本中每个语句或指定语句的质量评价结果;根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。根据本专利技术实施例的第二方面,提供一种自然语言语句评价装置,所述装置包括:语句获取模块,用于获取待评价的自然语言语句;评价特征提取模块,用于提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;评价结果获取模块,用于根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。可选的,当所述语句质量评价特征包括语句语义特征时,所述评价特征提取模块用于:计算所述语句中每个词语的词向量;将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。可选的,所述语句的语句描述特征包括以下特征中的一种或多种:语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。可选的,所述评价特征提取模块用于提取语句中高级搭配数时,用于:通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;所述评价特征提取模块用于提取语句的语言模型得分时,用于:根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。可选的,所述语句质量评价模型使用回归模型,所述语句的质量评价结果为所述语句的质量得分;或者,所述语句质量评价模型使用分类模型,所述语句的质量评价结果为所述语句的质量等级。可选的,所述装置还包括:文本评价模块,用于获取一篇文本中每个语句或指定语句的质量评价结果;根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。本专利技术实施例提供的技术方案可以包括以下有益效果:在本专利技术实施例中,对于一条语句,提出了语句质量评价特征的概念,语句质量评价特征包括语句语义特征和\或语句描述特征,语句语义特征根据所述语句中包含的词语的词向量得到,语句描述特征根据所述语句的结构及所述语句的内容得到,通过自动提取的语句质量评价特征及预先构建的语句质量评价模型,可以自动得到该语句的质量评价结果(如质量评分或质量等级),不需要人工参与,大大提高了语句评价时的效率和准确度,而且由于是基于客观参数给出的评价结果,所以可以避免人为主观性的影响,使得语句质量的评价结果也较客观。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是根据本专利技术一示例性实施例示出的一种自然语言语句评价方法的流程图;图2是根据本专利技术一示例性实施例示出的一种自然语言语句评价方法的流程图;图3是根据本专利技术一示例性实施例示出的一种自然语言语句评价方法的流程图;图4是根据本专利技术一示例性实施例示出的一种自然语言语句评价方法的流程图;图5是根据本专利技术一示例性实施例示出的一种自然语言语句评价装置的示意图;图6是根据本专利技术一示例性实施例示出的一种自然语言语句评价装置的示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例本文档来自技高网...

【技术保护点】
1.一种自然语言语句评价方法,其特征在于,所述方法包括:获取待评价的自然语言语句;提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。

【技术特征摘要】
1.一种自然语言语句评价方法,其特征在于,所述方法包括:获取待评价的自然语言语句;提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。2.根据权利要求1所述的方法,其特征在于,提取所述语句的语句语义特征,包括:计算所述语句中每个词语的词向量;将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。3.根据权利要求1所述的方法,其特征在于,所述语句的语句描述特征包括以下特征中的一种或多种:语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。4.根据权利要求3所述的方法,其特征在于,提取语句中高级搭配数,包括:通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;提取语句的语言模型得分,包括:根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。5.根据权利要求1所述的方法,其特征在于,所述语句质量评价模型使用回归模型,所述语句的质量评价结果为所述语句的质量得分;或者,所述语句质量评价模型使用分类模型,所述语句的质量评价结果为所述语句的质量等级。6.根据权利要求1所述的方法,其特征在于,获取所述语句的质量评价结果之后,所述方法还包括:获取一篇文本中每个语句或指定语句的质量评价结果;根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。7.一种自然语言语句评价装置,其特征在于,所述装置包括:语句获取模块,...

【专利技术属性】
技术研发人员:代旭东盛志超
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1