一种口语评分方法及装置制造方法及图纸

技术编号:17797366 阅读:51 留言:0更新日期:2018-04-25 20:54
本发明专利技术提供了一种口语评分方法及装置,其中,该方法包括:获取待评分语音;通过预先训练的音素评分模型对待评分语音进行音素发音质量评分;根据待评分语音包括的每个音素的评分结果,确定待评分语音的质量分值。本发明专利技术以音素为单位进行口语评分,预先训练了每种语言类型包含的各个音素对应的音素评分模型。由于音素数量少,所以训练音素评分模型的工作量小,效率高。在评分时先通过音素评分模型对待评分语音包含的每个音素进行评分,然后将评分结果融合为待评分语音整体的质量分值,整个评分过程中无需专业领域内人士根据口语发音质量的相关特性设计GOP、native似然度等评分特性,评分过程更加细化,提高了口语评分的准确性及稳定性。

A method and device for oral English scoring

The present invention provides an oral scoring method and device, in which the method includes: obtaining the pending speech, and evaluating the phoneme pronunciation quality score by the pre trained phoneme score model, and determining the quality score of the speech to be graded according to the score of each phoneme to be included. The invention uses phoneme as the unit to carry out oral scoring, and pre trains the phoneme score model corresponding to each phoneme contained in each language type. Because of the low number of phonemes, the training of phoneme score model has a small workload and high efficiency. The scores of each phoneme included by the phoneme were evaluated by the phoneme score model, and then the score was fused into the quality score of the whole. In the whole scoring process, there was no need for people in the professional field to design GOP, native likelihood and other characteristics according to the characteristics of the oral pronunciation quality. The process is more detailed and improves the accuracy and stability of oral scoring.

【技术实现步骤摘要】
一种口语评分方法及装置
本专利技术涉及语音识别及数据处理
,具体而言,涉及一种口语评分方法及装置。
技术介绍
目前对朗读风格题型的口语发音评分,主要考察发音质量、流利度、韵律等几个方面。其中,发音质量是口语评分考察的重中之重。当前,相关技术中通常通过以下三种方式来实现口语发音的质量评测:(1)将待评分语音与标准发音做比对。(2)统计待评分语音的GOP(goodofpronunciation)发音质量特征,根据得到的GOP发音质量特征,建立简单的映射模型,得到最终的发音评分。(3)按照回归的方式,提取多个发音特征,如GOP、native似然度等,人工标注大量的评分数据,构建回归评分模型,利用该回归评分模型为待评分语音进行评分。但上述三种相关技术中,需要专业领域内人士,根据口语发音质量的相关特性,设计GOP、native似然度等评分特征,评分的准确性不高,评分的稳定性不好。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种口语评分方法及装置,以解决现有技术存在的以下问题:现有技术中需要专业领域内人士,根据口语发音质量的相关特性,设计GOP、native似然度等评分特征,评分的准确性及稳定性都不好。第一方面,本专利技术实施例提供了一种口语评分方法,包括:获取待评分语音;通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分;根据所述待评分语音包括的每个音素的评分结果,确定所述待评分语音的质量分值。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实现方式,其中,所述通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分,包括:识别所述待评分语音所属的语言类型;对所述待评分语音进行声学切分,获得所述待评分语音包括的每个音素对应的时间边界信息及语音段;从预先训练的所述语言类型对应的所有音素评分模型中,确定出所述每个音素对应的音素评分模型;根据所述每个音素对应的时间边界信息及语音段,通过所述每个音素对应的音素评分模型分别获得所述每个音素对应的质量分值。结合第一方面的第一种可能的实现方式,本专利技术实施例提供了第一方面的第二种可能的实现方式,其中,所述对所述待评分语音进行声学切分,获得所述待评分语音包括的每个音素对应的时间边界信息及语音段,包括:通过预设声学模型获取所述待评分语音中每个音素的时间边界信息;根据所述每个音素的时间边界信息,从所述待评分语音中切分出所述每个音素对应的语音段。结合第一方面的第一种可能的实现方式,本专利技术实施例提供了第一方面的第三种可能的实现方式,其中,所述根据所述待评分语音包括的每个音素的评分结果,确定所述待评分语音的质量分值,包括:根据所述每个音素对应的时间边界信息及质量分值,确定所述待评分语音包括的每个单词的质量分值;将所述每个单词的质量分值融合为所述待评分语音的质量分值。结合第一方面的第三种可能的实现方式,本专利技术实施例提供了第一方面的第四种可能的实现方式,其中,所述根据所述每个音素对应的时间边界信息及质量分值,确定所述待评分语音包括的每个单词的质量分值,包括:根据所述每个音素对应的时间边界信息,确定所述待评分语音中每个单词包含的音素;分别将每个单词包含的音素的质量分值融合为所述每个单词的质量分值。结合第一方面,本专利技术实施例提供了第一方面的第五种可能的实现方式,其中,所述根据所述待评分语音包括的每个音素的评分结果,确定所述待评分语音的质量分值,包括:计算所述每个音素的评分结果的平均值,将所述平均值确定为所述待评分语音的质量分值。结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实现方式,其中,所述获取待评分语音之前,还包括:获取每个音素对应的训练数据;根据所述每个音素对应的训练数据、端到端模型及损失函数,分别训练出所述每个音素对应的模型参数,获得所述每个音素对应的音素评分模型。第二方面,本专利技术实施例提供了一种口语评分装置,所述装置包括:获取模块,用于获取待评分语音;音素评分模块,用于通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分;确定模块,用于根据所述待评分语音包括的每个音素的评分结果,确定所述待评分语音的质量分值。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实现方式,其中,所述音素评分模块包括:切分单元,用于对所述待评分语音进行声学切分,获得所述待评分语音包括的每个音素对应的时间边界信息及语音段;确定单元,用于从预先训练的所有音素评分模型中,确定出所述每个音素对应的音素评分模型;获得单元,用于根据所述每个音素对应的时间边界信息及语音段,通过所述每个音素对应的音素评分模型分别获得所述每个音素对应的质量分值。结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实现方式,其中,所述装置还包括:模型训练模块,用于获取每个音素对应的训练数据;根据所述每个音素对应的训练数据、端到端模型及损失函数,分别训练出所述每个音素对应的模型参数,获得所述每个音素对应的音素评分模型。在本专利技术实施例提供的方法及装置中,获取待评分语音;通过预先训练的音素评分模型对待评分语音进行音素发音质量评分;根据待评分语音包括的每个音素的评分结果,确定待评分语音的质量分值。本专利技术以音素为单位进行口语评分,预先训练了每种语言类型包含的各个音素对应的音素评分模型。由于音素数量少,所以训练音素评分模型的工作量小,效率高。在评分时先通过音素评分模型对待评分语音包含的每个音素进行评分,然后将评分结果融合为待评分语音整体的质量分值,整个评分过程中无需专业领域内人士根据口语发音质量的相关特性设计GOP、native似然度等评分特性,评分过程更加细化,提高了口语评分的准确性及稳定性。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例1所提供端到端模型的结构示意图;图2示出了本专利技术实施例1所提供的一种口语评分方法的流程图;图3示出了本专利技术实施例1所提供的另一种口语评分方法的流程示意图;图4示出了本专利技术实施例2所提供的一种口语评分装置的结构示意图;图5示出了本专利技术实施例4所提供的一种口语评分装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。考虑到相关技术中需要专业领域内人士,根据口语发音质量的相关特性,设计GOP、native似然度等评分特征,评分的准确性不高,评分的稳定性不好。。基于此,本文档来自技高网...
一种口语评分方法及装置

【技术保护点】
一种口语评分方法,其特征在于,所述方法包括:获取待评分语音;通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分;根据所述待评分语音包括的每个音素的评分结果,确定所述待评分语音的质量分值。

【技术特征摘要】
1.一种口语评分方法,其特征在于,所述方法包括:获取待评分语音;通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分;根据所述待评分语音包括的每个音素的评分结果,确定所述待评分语音的质量分值。2.根据权利要求1所述的方法,其特征在于,所述通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分,包括:识别所述待评分语音所属的语言类型;对所述待评分语音进行声学切分,获得所述待评分语音包括的每个音素对应的时间边界信息及语音段;从预先训练的所述语言类型对应的所有音素评分模型中,确定出所述每个音素对应的音素评分模型;根据所述每个音素对应的时间边界信息及语音段,通过所述每个音素对应的音素评分模型分别获得所述每个音素对应的质量分值。3.根据权利要求2所述的方法,其特征在于,所述对所述待评分语音进行声学切分,获得所述待评分语音包括的每个音素对应的时间边界信息及语音段,包括:通过预设声学模型获取所述待评分语音中每个音素的时间边界信息;根据所述每个音素的时间边界信息,从所述待评分语音中切分出所述每个音素对应的语音段。4.根据权利要求2所述的方法,其特征在于,所述根据所述待评分语音包括的每个音素的评分结果,确定所述待评分语音的质量分值,包括:根据所述每个音素对应的时间边界信息及质量分值,确定所述待评分语音包括的每个单词的质量分值;将所述每个单词的质量分值融合为所述待评分语音的质量分值。5.根据权利要求4所述的方法,其特征在于,所述根据所述每个音素对应的时间边界信息及质量分值,确定所述待评分语音包括的每个单词的质量分值,包括:根据所述每个音素对应的时间边界信息,确定所述待评...

【专利技术属性】
技术研发人员:陆勇毅秦龙
申请(专利权)人:北京先声教育科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1