一种云端语言能力评测系统及可穿戴录音终端技术方案

技术编号：28323550 阅读：15 留言：0更新日期：2021-05-04 13:04

本发明专利技术公开了一种云端语言能力评测系统，属于语言评测领域，云端语言能力评测系统包括设置有麦克风阵列的可穿戴录音终端、智能语音处理模块以及语言能力评估模块，所述麦克风阵列生成音频向量文件，所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理，再利用其各个子模块相应的语音分析算法从经过前端信号优化处理的音频向量文件中提取多维度识别数据，语言能力评估模块对所述多维度识别数据进行分析及统计，并输出目标说话人的综合评测结果进行可视化展示。本发明专利技术提供的云端语言能力评测系统，其基于麦克风阵列进行定位及精准拾音，极大增强评测系统智能化、客观化以及自动化能力，有效突破了现有国内外语言评测系统的技术屏障。

全部详细技术资料下载

【技术实现步骤摘要】
一种云端语言能力评测系统及可穿戴录音终端
本专利技术涉及语言评测领域，尤其涉及一种云端语言能力评测系统以及用于上述评测系统的可穿戴录音终端。
技术介绍
依据儿童发展相关研究表明，儿童早期的语言能力与其成年后的学习和学业水平正相关，因为对儿童早期的语言能力进行评测对于儿童后期发展至关重要。为了对儿童语言发展进行有效的研究，目前我国常常采用在特定场景下进行陪同交流，并在儿童的成长阶段记录多个样本的方式实施。陪同交流的随机性较大，而且部分儿童对成年人具备畏惧心理，评测数据客观性有待考证，而且采用人工的方式在儿童的成长阶段记录多个样本的难度极大，费时费力。为了有效解决上述问题，国外同行通过对于可穿戴设备的研究，提供了一种包含录音器的可穿戴设备，例如：美国产品LENA，其被广泛的应用于美国的儿童语言发育迟缓及孤独症等儿童发育障碍的诊断和治疗。美国产品LENA的主要作用是录制儿童的音频，类似很多国内的具有录音功能的智能手表等产品。这类型包含录音器的可穿戴设备通常仅设置有单个麦克风，其录制的音频很难对儿童语音能力进行综合全面有效的评估。例如：设置单个麦克风无法定位被测儿童及与其伙伴的位置关系，难以确定说话人身份。又如单个麦克风采集的音频受到环境的影响较大，很难准确分析被测儿童及与其伙伴的对话场景、对话回合、真实语义、也无法满足对多个语言能力指标的全面覆盖。从能力评测系统来看，国内缺乏能够针对汉语采集多个语言指标的综合性评测系统。现有阶段语言学家对语言能力指标的分析研究的过程中，常常采用语料库研究方法进行研究，这种研...

【技术保护点】
1.一种云端语言能力评测系统，其特征在于，包括：/n设置有麦克风阵列的可穿戴录音终端；用于通过所述麦克风阵列采集多通道音频语音信号，并上传至所述智能语音处理模块，生成音频向量文件；/n智能语音处理模块；用于对音频向量文件进行前端信号优化处理，并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据；/n语言能力评估模块；用于从所述智能语音处理模块抽取所述多维度识别数据，并对所述多维度识别数据进行分析及统计；/n所述麦克风阵列采集所述多通道音频语音信号后，传输至所述智能语音处理模块生成音频向量文件，所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理，再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据，语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据，并对一个或者多个所述多维度识别数据进行分析及统计，并输出目标说话人语言能力的综合评测结果及等级分类。/n

【技术特征摘要】
1.一种云端语言能力评测系统，其特征在于，包括：
设置有麦克风阵列的可穿戴录音终端；用于通过所述麦克风阵列采集多通道音频语音信号，并上传至所述智能语音处理模块，生成音频向量文件；
智能语音处理模块；用于对音频向量文件进行前端信号优化处理，并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据；
语言能力评估模块；用于从所述智能语音处理模块抽取所述多维度识别数据，并对所述多维度识别数据进行分析及统计；
所述麦克风阵列采集所述多通道音频语音信号后，传输至所述智能语音处理模块生成音频向量文件，所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理，再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据，语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据，并对一个或者多个所述多维度识别数据进行分析及统计，并输出目标说话人语言能力的综合评测结果及等级分类。

2.根据权利要求1所述的云端语言能力评测系统，其特征在于：
所述智能语音处理模块包括前端数据处理模块以及智能识别算法模块；
所述前端数据处理模块，用于对所述音频向量文件进行前端信号优化处理；
所述智能识别算法模块，用于依据通过多种语音分析算法对所述音频向量文件进行计算及分析，并生成若干多维度识别数据。

3.根据权利要求2所述的云端语言能力评测系统，其特征在于：
所述前端数据处理模块包括端点检测单元；
所述端点检测单元用于从音频向量文件中的各段语音片段中检测出包含人声的语音片段且去除静音片段；所述端点检测单元采基于卷积网络-长短时记忆网络的端到端框架模型对于音频向量文件进行语音端点检测，在端到端框架模型中位于前端的卷积网络ResNet用于从音频向量文件的各段语音片段中抽取与语音活动检测任务相关的特征序列，并确定各段语音片段的端点，长短时记忆网络LSTM用于进一步捕获各段语音片段的特征序列中的时间依赖性；
所述端点检测单元将二分类交叉熵作为损失函数对端到端框架模型进行训练，通过训练检测出包含人声的语音段的起始时间和结束时间。

4.根据权利要求2至3所述的云端语言能力评测系统，其特征在于：
所述智能识别算法模块包括声纹识别单元；
所述声纹识别单元用于识别不同身份说话人的语音片段声纹特性并标记；
所述声纹识别单元通过利用ResNet算法模型提取音频向量文件中的各语音片段的说话人嵌入信息且对所述说话人嵌入信息进行声纹特征识别，再依据不同被测试者的声纹特征匹配相应的身份标记。

5.根据权利要求2至3所述的云端语言能力评测系统，其特征在于
所述智能识别算法模块包括说话人日志单元；
所述说话人日志单元用于对所有目标说话人及相关说话人形成的各段音频向量文件及各段音频向量文件对应的起止发言时间按说话人身份属性归档。

6.根据权利要求5所述的云端语言能力评测系统，其特征在于：
所述说话人日志单元通过模块化说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档；
在所述模块化说话人日志模型中，所述说话人日志单元中的音频切割器将音频向量文件中的各段语音片段中的长语音片段切割成多段短语音片段，所述说话人日志单元中的语音识别器将多段短语音片段中记载的语音信息转化为文本信息，所述说话人日志单元利用第一类提取工具将多段文本信息转化文本矩阵，所述说话人日志单元的声纹识别器提取多段短语音片段的声纹特征，所述声纹识别器将利用第二类提取工具将多段声纹特征转化为声纹矩阵；
将所述文本矩阵及所述声纹矩阵作为相似度评估算法的输入，所述说话人日志单元利用所述相似度评估算法对所述文本矩阵及所述声纹矩阵涉及的多段短语音片段的声纹相似度进行计算得到若干相识度矩阵，再若干相识度矩阵输入至改进型谱聚类算法进行计算并将声纹特征相似度的短语音片段归为同一类，得到聚类数及各段短语音片段实现按说话人身份属性归档结果。

7.根据权利要求6所述的云端语言能力评测系统，其特征在于：
所述相似度评估算法配置为基于Attention的向量-序列打分模型算法、基于Attention的序列-序列打分模型算法中的一种或者多种；
所述改进型谱聚类算法通过统计归一化拉普拉斯矩阵小于预设阈值的特征值数量来确定所述音频向量文件的聚类数。

8.根据权利要求5或6或7所述的云端语言能力评测系统，其特征在于：
所述说话人日志单元通过端到端说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档；
在所述端到端说话人日志模型中，所述说话人日志单元的声纹识别器采用声纹预训练方法得到ResNet算法模型的特征提取器，所述端到端说话人日志模型的输入是所述音频向量文件的Fbank特征谱，并通过所述ResNet算法模型提取所述音频向量文件的声纹特征，...

【专利技术属性】
技术研发人员：李明，张琳，林庆健，
申请(专利权)人：昆山杜克大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人