一种云端语言能力评测系统及可穿戴录音终端技术方案

技术编号:28323550 阅读:15 留言:0更新日期:2021-05-04 13:04
本发明专利技术公开了一种云端语言能力评测系统,属于语言评测领域,云端语言能力评测系统包括设置有麦克风阵列的可穿戴录音终端、智能语音处理模块以及语言能力评估模块,所述麦克风阵列生成音频向量文件,所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理,再利用其各个子模块相应的语音分析算法从经过前端信号优化处理的音频向量文件中提取多维度识别数据,语言能力评估模块对所述多维度识别数据进行分析及统计,并输出目标说话人的综合评测结果进行可视化展示。本发明专利技术提供的云端语言能力评测系统,其基于麦克风阵列进行定位及精准拾音,极大增强评测系统智能化、客观化以及自动化能力,有效突破了现有国内外语言评测系统的技术屏障。

【技术实现步骤摘要】
一种云端语言能力评测系统及可穿戴录音终端
本专利技术涉及语言评测领域,尤其涉及一种云端语言能力评测系统以及用于上述评测系统的可穿戴录音终端。
技术介绍
依据儿童发展相关研究表明,儿童早期的语言能力与其成年后的学习和学业水平正相关,因为对儿童早期的语言能力进行评测对于儿童后期发展至关重要。为了对儿童语言发展进行有效的研究,目前我国常常采用在特定场景下进行陪同交流,并在儿童的成长阶段记录多个样本的方式实施。陪同交流的随机性较大,而且部分儿童对成年人具备畏惧心理,评测数据客观性有待考证,而且采用人工的方式在儿童的成长阶段记录多个样本的难度极大,费时费力。为了有效解决上述问题,国外同行通过对于可穿戴设备的研究,提供了一种包含录音器的可穿戴设备,例如:美国产品LENA,其被广泛的应用于美国的儿童语言发育迟缓及孤独症等儿童发育障碍的诊断和治疗。美国产品LENA的主要作用是录制儿童的音频,类似很多国内的具有录音功能的智能手表等产品。这类型包含录音器的可穿戴设备通常仅设置有单个麦克风,其录制的音频很难对儿童语音能力进行综合全面有效的评估。例如:设置单个麦克风无法定位被测儿童及与其伙伴的位置关系,难以确定说话人身份。又如单个麦克风采集的音频受到环境的影响较大,很难准确分析被测儿童及与其伙伴的对话场景、对话回合、真实语义、也无法满足对多个语言能力指标的全面覆盖。从能力评测系统来看,国内缺乏能够针对汉语采集多个语言指标的综合性评测系统。现有阶段语言学家对语言能力指标的分析研究的过程中,常常采用语料库研究方法进行研究,这种研究方法往往需要大量的人工标注,这种导致系统而全面的分析工作难以推动,由于解决这个问题,研究者们往往采用聚焦于一个或者几个语言现象的方式进行研究,但仅仅对语音能力某几个指标进行分析是难以综合反映儿童的语音能力,其评测结果的参考性往往较低。国际上,为了解决上述问题,研究开了“国际儿童口语语料库CHILDES系统”这一类的系统对儿童的语言综合能力进行评估,“国际儿童口语语料库CHILDES系统”带有的人工转录分析编码系统(CHAT)和语料分析程序(CKAN)可以对语言样本进行分析。然而,这类型系统在对语言样本分析的过程中需要经历录音、转写、分析等流程,耗时巨大而且对研究者专业技能要求苛刻,除此之外,由于是国外开发,类似“国际儿童口语语料库CHILDES系统”这样的系统往往更加适用于英文语境,国内研究者很难利用其进行汉语语言能力分析工作。中国专利文献公开号CN110503941A公开了一种语言能力评测方法、装置、系统、计算机设备及存储介质,其中方法包括:采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,第一音频文件和第二音频文件为完全相同的音频文件;按照声音数据的语音顺序将第一音频文件转换成对应单词顺序的语音文本;结合语音文本对第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;基于每个单词的发音准确率计算声音数据的发音准确率。其仅仅是对于发音准确率等个别指标进行计算,并不适用于专业的语言能力评测与研究。
技术实现思路
为了克服现有技术的缺陷,本专利技术所要解决的技术问题在于提出一种云端语言能力评测系统,其基于麦克风阵列进行定位及精准拾音,为儿童语言能力的综合评测数据来源全面性及准确性提供有效保证,通过麦克风阵列及一系列信号优化及具备学习能力的语音分析算法,极大增强评测系统智能化、客观化以及自动化,有效突破了现有国内外语言评测系统的技术屏障。为达此目的,本专利技术采用以下技术方案:本专利技术提供的一种云端语言能力评测系统,包括设置有麦克风阵列的可穿戴录音终端、智能语音处理模块以及语言能力评估模块,可穿戴录音终端用于通过所述麦克风阵列采集多通道音频语音信号,并上传至所述智能语音处理模块,生成音频向量文件,智能语音处理模块用于对音频向量文件进行前端信号优化处理,并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据,语言能力评估模块用于从所述智能语音处理模块抽取所述多维度识别数据,并对所述多维度识别数据进行分析及统计,所述麦克风阵列采集所述多通道音频语音信号后,传输至所述智能语音处理模块生成音频向量文件,所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理,再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据,语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据,并对一个或者多个所述多维度识别数据进行分析及统计,并输出目标说话人语言能力的综合评测结果及等级分类。本专利技术优选地技术方案在于,所述智能语音处理模块包括前端数据处理模块以及智能识别算法模块,所述前端数据处理模块用于对所述音频向量文件进行前端信号优化处理,所述智能识别算法模块用于依据通过多种语音分析算法对所述音频向量文件进行计算及分析,并生成若干多维度识别数据。本专利技术优选地技术方案在于,所述前端数据处理模块包括端点检测单元,所述端点检测单元用于从音频向量文件中的各段语音片段中检测出包含人声的语音片段且去除静音片段;所述端点检测单元采基于卷积网络-长短时记忆网络的端到端框架模型对于音频向量文件进行语音端点检测,在端到端框架模型中位于前端的卷积网络ResNet用于从音频向量文件的各段语音片段中抽取与语音活动检测任务相关的特征序列,并确定各段语音片段的端点,长短时记忆网络LSTM用于进一步捕获各段语音片段的特征序列中的时间依赖性;所述端点检测单元将二分类交叉熵作为损失函数对端到端框架模型进行训练,通过训练检测出包含人声的语音段的起始时间和结束时间。本专利技术优选地技术方案在于,所述智能识别算法模块包括声纹识别单元,所述声纹识别单元用于识别不同身份说话人的语音片段声纹特性并标记,所述声纹识别单元通过利用ResNet算法模型提取音频向量文件中的各语音片段的说话人嵌入信息且对所述说话人嵌入信息进行声纹特征识别,再依据不同被测试者的声纹特征匹配相应的身份标记。本专利技术优选地技术方案在于,所述智能识别算法模块包括说话人日志单元,所述说话人日志单元用于对所有目标说话人及相关说话人形成的各段音频向量文件及各段音频向量文件对应的起止发言时间按说话人身份属性归档。本专利技术优选地技术方案在于,所述说话人日志单元通过模块化说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档。在所述模块化说话人日志模型中,所述说话人日志单元中的音频切割器将音频向量文件中的各段语音片段中的长语音片段切割成多段短语音片段,所述说话人日志单元中的语音识别器将多段短语音片段中记载的语音信息转化为文本信息,所述说话人日志单元利用第一类提取工具将多段文本信息转化文本矩阵,所述说话人日志单元的声纹识别器提取多段短语音片段的声纹特征,所述声纹识别器将利用第二类提取工具将多段声纹特征转化为声纹矩阵,将所述文本矩阵及所述声纹矩阵作为相似度评估算法的输入,所述说话人日志单元利用所述相似度评估算法对所述文本本文档来自技高网
...

【技术保护点】
1.一种云端语言能力评测系统,其特征在于,包括:/n设置有麦克风阵列的可穿戴录音终端;用于通过所述麦克风阵列采集多通道音频语音信号,并上传至所述智能语音处理模块,生成音频向量文件;/n智能语音处理模块;用于对音频向量文件进行前端信号优化处理,并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据;/n语言能力评估模块;用于从所述智能语音处理模块抽取所述多维度识别数据,并对所述多维度识别数据进行分析及统计;/n所述麦克风阵列采集所述多通道音频语音信号后,传输至所述智能语音处理模块生成音频向量文件,所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理,再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据,语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据,并对一个或者多个所述多维度识别数据进行分析及统计,并输出目标说话人语言能力的综合评测结果及等级分类。/n

【技术特征摘要】
1.一种云端语言能力评测系统,其特征在于,包括:
设置有麦克风阵列的可穿戴录音终端;用于通过所述麦克风阵列采集多通道音频语音信号,并上传至所述智能语音处理模块,生成音频向量文件;
智能语音处理模块;用于对音频向量文件进行前端信号优化处理,并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据;
语言能力评估模块;用于从所述智能语音处理模块抽取所述多维度识别数据,并对所述多维度识别数据进行分析及统计;
所述麦克风阵列采集所述多通道音频语音信号后,传输至所述智能语音处理模块生成音频向量文件,所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理,再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据,语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据,并对一个或者多个所述多维度识别数据进行分析及统计,并输出目标说话人语言能力的综合评测结果及等级分类。


2.根据权利要求1所述的云端语言能力评测系统,其特征在于:
所述智能语音处理模块包括前端数据处理模块以及智能识别算法模块;
所述前端数据处理模块,用于对所述音频向量文件进行前端信号优化处理;
所述智能识别算法模块,用于依据通过多种语音分析算法对所述音频向量文件进行计算及分析,并生成若干多维度识别数据。


3.根据权利要求2所述的云端语言能力评测系统,其特征在于:
所述前端数据处理模块包括端点检测单元;
所述端点检测单元用于从音频向量文件中的各段语音片段中检测出包含人声的语音片段且去除静音片段;所述端点检测单元采基于卷积网络-长短时记忆网络的端到端框架模型对于音频向量文件进行语音端点检测,在端到端框架模型中位于前端的卷积网络ResNet用于从音频向量文件的各段语音片段中抽取与语音活动检测任务相关的特征序列,并确定各段语音片段的端点,长短时记忆网络LSTM用于进一步捕获各段语音片段的特征序列中的时间依赖性;
所述端点检测单元将二分类交叉熵作为损失函数对端到端框架模型进行训练,通过训练检测出包含人声的语音段的起始时间和结束时间。


4.根据权利要求2至3所述的云端语言能力评测系统,其特征在于:
所述智能识别算法模块包括声纹识别单元;
所述声纹识别单元用于识别不同身份说话人的语音片段声纹特性并标记;
所述声纹识别单元通过利用ResNet算法模型提取音频向量文件中的各语音片段的说话人嵌入信息且对所述说话人嵌入信息进行声纹特征识别,再依据不同被测试者的声纹特征匹配相应的身份标记。


5.根据权利要求2至3所述的云端语言能力评测系统,其特征在于
所述智能识别算法模块包括说话人日志单元;
所述说话人日志单元用于对所有目标说话人及相关说话人形成的各段音频向量文件及各段音频向量文件对应的起止发言时间按说话人身份属性归档。


6.根据权利要求5所述的云端语言能力评测系统,其特征在于:
所述说话人日志单元通过模块化说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档;
在所述模块化说话人日志模型中,所述说话人日志单元中的音频切割器将音频向量文件中的各段语音片段中的长语音片段切割成多段短语音片段,所述说话人日志单元中的语音识别器将多段短语音片段中记载的语音信息转化为文本信息,所述说话人日志单元利用第一类提取工具将多段文本信息转化文本矩阵,所述说话人日志单元的声纹识别器提取多段短语音片段的声纹特征,所述声纹识别器将利用第二类提取工具将多段声纹特征转化为声纹矩阵;
将所述文本矩阵及所述声纹矩阵作为相似度评估算法的输入,所述说话人日志单元利用所述相似度评估算法对所述文本矩阵及所述声纹矩阵涉及的多段短语音片段的声纹相似度进行计算得到若干相识度矩阵,再若干相识度矩阵输入至改进型谱聚类算法进行计算并将声纹特征相似度的短语音片段归为同一类,得到聚类数及各段短语音片段实现按说话人身份属性归档结果。


7.根据权利要求6所述的云端语言能力评测系统,其特征在于:
所述相似度评估算法配置为基于Attention的向量-序列打分模型算法、基于Attention的序列-序列打分模型算法中的一种或者多种;
所述改进型谱聚类算法通过统计归一化拉普拉斯矩阵小于预设阈值的特征值数量来确定所述音频向量文件的聚类数。


8.根据权利要求5或6或7所述的云端语言能力评测系统,其特征在于:
所述说话人日志单元通过端到端说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档;
在所述端到端说话人日志模型中,所述说话人日志单元的声纹识别器采用声纹预训练方法得到ResNet算法模型的特征提取器,所述端到端说话人日志模型的输入是所述音频向量文件的Fbank特征谱,并通过所述ResNet算法模型提取所述音频向量文件的声纹特征,...

【专利技术属性】
技术研发人员:李明张琳林庆健
申请(专利权)人:昆山杜克大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1