网络教学实时语音分析方法技术

技术编号:13188008 阅读:81 留言:0更新日期:2016-05-11 17:38
本发明专利技术为用户提供了网络教学实时语音分析方法,所述方法包括如下步骤:a)捕获语音输入;b)执行所述语音输入的实时识别;c)分析所识别的语音输入以标识所述用户的语音中的可能错误;d)处理所述文本以提取上下文对话提示;其中,所述语音输入包括来自所述用户以及至少一个其他说话者的语音;所述实时识别包括使用自动语音识别ASR将所述语音输入转换为文本。所述上下文对话提示用来检测候选声音、候选单词和候选词组中的至少一个以便纠正。本发明专利技术的优点在于:运用本发明专利技术的网络教学实时语音分析方法,可以提供用户语音的实时、被动监视,这不需要用户的主动参与。这种方法高度交互,可以利用上下文和对话语义,并且高度个性化。

【技术实现步骤摘要】

本专利技术属于语音分析
,具体涉及网络教学实时语音分析的方法。
技术介绍
语音是我们日常生活的不可或缺的一部分。准确的语音(例如,发音、语法等)在高效通信中起着重要作用。能够有效地说话可以使人容易被理解,听起来信心十足,并且明确地表达出重点。纠正和改进语音的常规设备和技术包括人为指导以及计算机辅助工具。在常规的人为指导方法中,雇用教师(即,语音-语言培训师、语言学家等)帮助纠正和改进语音。例如,可以参加现场讲习班或完成在线课程。但是,使用现场老师会需要大量时间。此外,成本通常非常高昂。另外,使用这种方法缺少迫切需要的灵活性。在常规的计算机辅助工具中,用户打开软件并且阅读软件显示的文本(预先选择或随机选择)。计算机分析用户的声道并标识错误。计算机例如可以根据语音与所需发音的接近程度分析语音,或者使用语音识别组件将语音输入转换为文本,然后测量转换的文本与原始文本的接近程度。但是,这种计算机辅助工具不提供个人触觉。进一步,计算机难以表示用户的实际、真实的语音内容。此外,用户通常仍然需要花费大量时间使用工具。常规工具的语音识别组件经过预先训练,因此高度地非个人化。实际上,常规计算机辅助工具不能动态适应用户语音或者用户与他人对话中的内容。常规方法还需要主动练习。预先选择的文本可能不对应于用户最常说的单词和词组。使用常规技术,可能难以涵盖用户习惯性说的某些事物,例如某些术语。
技术实现思路
针对上述常规方法和结构的缺点和劣势,本专利技术提供了一种实时语音分析的方法,其中以高度个性化、具有时效性的方式在网络教学中实时纠正和改进用户语音。本专利技术采用如下方案来实现上述目的:一种为用户提供网络教学实时语音分析的方法,其特征在于,所述方法包括如下步骤:a)捕获语音输入;b)执行所述语音输入的实时识别;c)分析所识别的语音输入以标识所述用户的语音中的可能错误;d)处理所述文本以提取上下文对话提示;其中,所述语音输入包括来自所述用户以及至少一个其他说话者的语音;所述实时识别包括使用自动语音识别ASR将所述语音输入转换为文本。所述上下文对话提示用来检测候选声音、候选单词和候选词组中的至少一个以便纠正。优化的,所述可能错误包括发音错误、句法错误和语法错误中的至少一个。优化的,其特征在于,所述分析包括常规语义分析。优化的,其特征在于,执行实时识别包括使用来自至少一个其他说话者的语音提不O优化的,其特征在于,通过使用上下文对话提示标识所述可能错误。优化的,还包括:实时为所述用户提供建议的错误纠正。优化的,还包括:创建定制的用户学习会话,其中所述学习会话包括交互式学习会话,以及其中所述学习会话基于常见错误模式。优化的,还包括:将所标识的错误、可视纠正、可听纠正和建议的同义词中的至少一个输出给所述用户。优化的,还包括:提取所述用户产生的错误;在机器学习算法的帮助下,汇总常见错误模式;以及将所述用户产生的所述错误和所述常见错误模式中的至少一个存储在用户简档中。优化的,所述用户简档包括用户国籍、用户口音和用户历史中的至少一个,所述用户历史包括所分析的用户语音、对所标识的错误的先前响应、先前用户反馈和用户容错偏好中的至少一个。本专利技术的优点在于:运用本专利技术的,可以提供用户语音的实时、被动监视,这不需要用户的主动参与。这种方法高度交互,可以利用上下文和对话语义,并且高度个性化。【附图说明】图1是本专利技术实施例中网络教学实时语音分析系统架构示意图;图2本专利技术的步骤框图;【具体实施方式】现在参考附图,更具体地说参考图1-2,其中示出根据本专利技术的方法和结构的各示例性实施例。在当今忙碌的世界中,时间非常珍贵。本专利技术不需要主动练习。相反,它提供用户语音的实时、被动监视。进一步,每个人都是独特的。至于语音,一个人的弱点可能是另一个人的强项。使用预设单词和词组纠正和改进语音只能到此为止。通过分析来自用户日常生活的实际语音而不是选定文本,本专利技术涵盖一组代表性并且完整的用户高频词汇。本专利技术还支持高度个性化的发音错误简档和语音识别组件。提供的定制、交互式课程可以针对独特地常见于用户的错误,并且专注于用户独有的问题。本专利技术部署交互式用户接口,其不仅可以利用用户反馈分析语音错误,而且还可以向用户建议纠正。本专利技术能够利用对话上下文信息帮助标识错误。通过使用上下文信息、对话语义、主题识别等,可以更容易地标识错误。即,本专利技术可以依赖于用户语音中和/或用户与一个或多个其他说话者之间的交流中的上下文信息。这种上下文信息通常可以称为上下文对话提不。在一个示例性实施例中,本专利技术实时监视日常生活中的用户语音(例如,对话、电话、会议)。本专利技术可以使用语音识别技术将语音转换为文本,并且通过某些度量标识有问题的单词/词组,这些度量可以包括但不限于以下一个或多个:语音识别中的置信度得分、词法上下文分析(例如,使用文本挖掘技术标识很少与上下文其余部分同时出现的单词),以及语义上下文分析(例如,识别其他方问题和重复/纠正)。本专利技术可以在不涉及用户的情况下纠正有问题的文本,并且它可以可选地在用户接口中突出显示有问题的文本,并要求用户纠正或确认自动纠正(以口头方式或以图形方式)。本专利技术可以比较正确文本的标准发音与原始语音中的用户发音,标识错误并且将它们存储在用户简档中。本专利技术可以经由音频以及经由具有语音的图形接口为用户实时提供纠正。本专利技术可以汇总用户的常见错误模式并向用户显示它们,并且自动安排旨在纠正这些错误的课程。本专利技术可以维护用户错误模式的直方图。例如可以通过下载应用将本专利技术安装在便携式设备(例如智能电话)上,或者可以通过因特网或者以可以提供程序和应用的各种其他方式,将本专利技术提供为服务。在一个示例性实施例中,要求保护的本专利技术可以提供发音纠正和训练。实际上,通常发音错误是用户语音的一个主要问题。因此,本专利技术可以在提供发音纠正和改进方面尤其有用。在一个示例性实施例中,本公开的方法可以通过使用母语说话者训练自动语音识别系统(ASR)来实现。然后,本专利技术持续将来自用户的口语样本接收到ASR中。接收ASR输出(例如,文本)以及与每个单词关联的置信度水平。本专利技术然后在文本中标识可能不是用户所表达含义的一个或多个单词或词组(这可以称为“有问题的”文本)。可以通过挑选具有低置信度得分的单词标识有问题的文本。进一步,本专利技术可以挑选出未在上下文中出现的单词。本专利技术还可以使用对话语义标识有问题的单词。例如可以基于测试结果设置有关用于查找有问题文本的置信度得分的阈值,并且可以调整和调优该阈值。阈值的调整和调优可以有助于防止阈值设置过高,因此过于严格,从而导致偶尔报告假警报。相反,调优和调整可以有助于防止阈值设置过低,因此阈值可能缺少所需的敏感性,从而导致有时忽略某些错误。然后可以使用各种技术纠正有问题的单词、词组等。这些技术例如可以包括查询用户简档中的常见错误模式,选择发音类似的单词(多个),但更优选的是在上下文和统计语言模型中,要求用户经由音频或图形接口纠正或确认自动纠正。可以以各种方式完成提取用户产生的错误。这些方式例如包括比较正确文本的语音与用户原始发音的语音,并且通过自动语音生成系统(ASG)发送真实(正确)文本,然后比较来自ASG的语音输出与用户的原始发首。本专利技术还可以经由音频或图形接口为用户本文档来自技高网...

【技术保护点】
网络教学实时语音分析方法,其特征在于,所述方法包括如下步骤:a)捕获语音输入;b)执行所述语音输入的实时识别;c)分析所识别的语音输入以标识所述用户的语音中的可能错误;d)处理所述文本以提取上下文对话提示;其中,所述语音输入包括来自所述用户以及至少一个其他说话者的语音;所述实时识别包括使用自动语音识别ASR将所述语音输入转换为文本。所述上下文对话提示用来检测候选声音、候选单词和候选词组中的至少一个以便纠正。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈拥权李建中郑荣稳鲁加旺
申请(专利权)人:合肥寰景信息技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1