一种智能发音学习语料生成方法技术

技术编号:2987774 阅读:184 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种智能发音学习语料生成方法,包括有专家知识库构建、专家系统构建、基础语料库构建和搜索机的构建,综合运用基于发音混淆的专家知识、语料分析技术、以及文本搜索技术自动生成有很强的针对性的发音学习语料,从而提高发音学习者学习发音的效率和效果。由于针对被学习者自身的发音缺陷生成最优的解决方案,学习更有针对性,使得学习的效果和效率有了明显的提升。学习系统的普适性增强。

【技术实现步骤摘要】

本专利技术涉及发音学习领域,具体涉及一种根据发音学习者的发音问题情况, 综合运用基于发音混淆的专家知识、语料分析技术、以及文本搜索技术自动生成 发音学习语料的方法。专利技术背景普通话水平测试是推广普通话工作的重要方法,是使推广普通话工作逐步走 上科学化、规范化、制度化的重要举措。2000年10月31日第九届全国人民代 表大会常务委员会第十八次会议通过的《中华人民共和国国家通用语言文字法》 规定,以普通话作为工作语言的播音员、节目主持人和影视话剧演员、教师、国 家机关工作人员必须参加普通话水平测试并达到国家规定的等级标准。目前进行的普通话水平学习主要以老师面授的方式为主,由师资力量有限很 难做到随时随地对学习者一对一的指导学习。指导老师的水平的高低,对普通话 学习也有很大到影响。因此,结合现代计算机技术的发展,研究开发如何将先进 的信息技术应用于普通话学习,全部替代或部分替代普通话老师,从而弥补传统 的普通话水平学习方法的不足,对于节省人力物力等成本和提高学习的效果、效 率方面都具有重大的意义。目前国际上针对语言学习的系统大都是基于计算机辅 助语言学习(CALL)的评测学习系统,虽然也有在中文学习和评测方面的应用, 但此类的评测学习系统,由于没有结合专家知识和智能搜索技术,系统的针对性 不强,多半是采用系统化的学习内容,不能根据每个学习者的情况进行动态定制。专利技术的内容本专利技术针对现有技术的不足,开发出了在专家知识的指导下,结合计算机语 料构建技术和智能搜索技术生成针对性的学习语料,能根据每个学习者的情况进 行动态定制以供学习者强化训练,从而提升学习者学习发音的效率和效果的发音学习语料生成方法。本专利技术是通过以下技术方案实现的,包括有专家知识库、专家系统、基础语 料库和搜索机,其实现方法包括以下步骤(1) 专家知识库的构建和分类从专家们以往处理发音问题的众多实例中选取 专家处理众多发音问题的方案,将众多的处理方案知识以合适的组织形式存入知 识库中,从而构建了专家知识库;专家知识库的知识分为发音缺陷参数数据、事 实、诊断型知识和元知识4类;专家系统的构建基于专家知识库中分类好的各 个方案例子,在统计分析基础上引入人工智能,构建形成专家系统,实现输入案 例到发音练习语料搜索条件的自动决策系统;(2) 基础语料库的构建根据已有的系统化的发音训练语料和从互联网上搜寻 并筛选的语料由计算机处理并构建;根据不同学习需要构建不同内容的基础语料 数据库,每一条语料可以按照这种格式存储对象,属性,类型;搜索机的构建 对基础语料库进行倒排序索引,获得从任意长度关键字到目标语料的索引;建立 可并行计算的快速搜索算法,可以从关键字或关键字组合快速搜索到相对应的语料文本;(3) 学习者通过各种渠道获得自己的发音问题情况,学习者将自己的发音问题 情况输入专家系统;(4) 专家系统根据其情况生成针对该发音问题情况的学习解决方案;该方案对 其发音情况进行分类和扩充,基本涵盖学习者的发音问题和与发音问题相关联的 易混淆发音;(5) 将专家系统给出的学习解决方案输入给搜索机;搜索机根据学习方案中的 关键字轮流到基础语料库中进行搜索,搜索机将多次搜索的结果进行分类合并, 组成最终的学习语料。,所述步骤(1)专家知识库的知识来源也 包括从大量发音样本发音错误规律的结果中总结统计出来的知识。,所述步骤(1)所述知识库组织形式采用 多库结构的组织模式,包括数据库、事实库和规则库。,所述的规则库包括有诊断规则库和元规则库。,步骤(1)所述发音缺陷数据可以用谓词 逻辑表示为谓词名"对象,类型,等级"。,所述步骤(1)的事实为用模糊谓词描述 含有模糊信息的事实,模糊谓词逻辑用四元组表示为谓词名"对象,属性,模 糊值,隶属度"。,所述步骤(1)的诊断型知识采用产生式 规则表示,最初形式为IF "前提"THEN "结论"。,所述步骤(2)中先对搜集到的原始语料 进行对比筛选出信息熵最大的语料,然后对语料进行领域分类,再对语料进行音 标或拼音的标注和词语边界、句子边界进行标定,然后以音标或拼音、音标串或 拼音串、字、词为关键字进行分级索引而形成基础语料库。,所述步骤(2)中每个语料内部根据使用 频率进一分为若干等级,所述每一条语料的格式存储可以为对象,属性,类型,等级,范围。,所述步骤(3)中所述学习者获得自己发 音问题情况的渠道,包括自我总结、由语音专家对其发音情况进行诊断和由计算 机智能语音评测系统进行诊断。,所述步骤(5)中搜索机搜索的同时考虑 用户的附加条件选项。本专利技术具体根据发音学习者的发音问题情况,综合运用基于发音混淆的专家 知识、语料分析技术、以及文本搜索技术自动生成有很强的针对性的发音学习语 料,从而提高发音学习者学习发音的效率和效果。由于针对被学习者自身的发音 缺陷生成最优的解决方案,学习更有针对性,使得学习的效果和效率有了明显的 提升。学习系统的普适性增强。由于引入了专家系统,可针对不同的学习类型进 行定制;同时,本专利技术框架可针对不同语种构建相应的语料生成系统,可以迅速 的进行不同语种的切换,从而使得系统的普适性增强。具体实施方式本专利技术实现的具体方法如下 1、专家知识库的获取和表示专家知识获取和表示语音教学所需要的专业知识基础可以从专业著作、相 关资料中得到,以及同长期从事该专业领域的专家们对话、从专家们以往处理问 题的实例中抽取专家知识选择合适的形式把整理好的专家知识存入知识库中。专家系统的构建基于专家知识库中分类好的各个方案例子,在统计分析基 础上引入人工智能,构建形成专家系统,实现输入案例到发音练习语料搜索条件 的自动决策系统;专家系统的知识分为发音缺陷参数数据、事实、诊断型知识和 元知识4类。发音缺陷数据可以用谓词逻辑表示为谓词名(对象,类型,等级), 对象指发音的音素,如"n, uo"等,类型只发音的缺陷类型,如"错误"、"缺 陷"等,等级指缺陷类型的等级,定位5级,用"1, 2, 3, 4, 5"表示。事实 为用模糊谓词描述含有模糊信息的事实,模糊谓词逻辑用四元组表示为谓词名 (对象,属性,模糊值,隶属度)。诊断型知识采用产生式规则表示,最初形式 为IF规则条件部分(条件l,条件2,,条件n) THEN结论。元知识是关于知 识的知识,在产生式系统中,它一般采用与目标层次知识相同的表示形式,并作 为一个知识实体与目标层次知识共存于知识库中。(1)元级推理与目标层次推理 可共享一个推理机;(2)当元规则与目标规则由当前数据库内容确定为可用规则 时,将优先执行元规则;(3)当系统分设目标层次规则库和元级规则库,系统 还将增加一个调度程序;(4)当有多个目标规则可用时,由调度程序根据元级规 则与可用目标规则冲突集的匹配情况,从中选择一条可用规则执行。专家知识库组织形式知识库采用多库结构的组织模式,包括数据库、事实 库和规则库。这样可以提高系统工作效率,也便于知识的搜索。各库之间相互独 立, 一个库的修改不会影响其它库。 2、学习语料生成器的搭建语料库的建设根据不同学习需要构建不同内容的语料数据库,如PSC, HSK 等。每个语料内部根据使用频率进一分为若干等级。每一条语料可以按照这种格 式存储(对象,属性,类型,等级,范围本文档来自技高网...

【技术保护点】
一种智能发音学习语料生成方法,其特征在于生成方法包括以下步骤:(1)专家知识库和专家系统的构建和分类:从专家们以往处理发音问题的众多实例中选取专家处理众多发音问题的方案,将众多的处理方案知识以合适的组织形式存入知识库中,从而构建了专家知识库;专家知识库的知识分为发音缺陷参数数据、事实、诊断型知识和元知识4类;专家系统的构建:基于专家知识库中分类好的各个方案例子,在统计分析基础上引入人工智能,构建形成专家系统,实现输入案例到发音练习语料搜索条件的自动决策系统;(2)基础语料库和搜索机的构建:根据已有的系统化的发音训练语料和从互联网上搜寻并筛选的语料由计算机处理并构建;根据不同学习需要构建不同内容的基础语料数据库,每一条语料可以按照这种格式存储:对象,属性,类型;搜索机的构建:对基础语料库进行倒排序索引,获得从任意长度关键字到目标语料的索引;建立可并行计算的快速搜索算法,可以从关键字或关键字组合快速搜索到相对应的语料文本;(3)学习者通过各种渠道获得自己的发音问题情况,学习者将自己的发音问题情况输入专家系统;(4)专家系统根据其情况生成针对该发音问题情况的学习解决方案;该方案对其发音情况进行分类和扩充,基本涵盖学习者的发音问题和与发音问题相关联的易混淆发音;(5)将专家系统给出的学习解决方案输入给搜索机;搜索机根据学习方案中的关键字轮流到基础语料库中进行搜索,搜索机将多次搜索的结果进行分类合并,组成最终的学习语料。...

【技术特征摘要】

【专利技术属性】
技术研发人员:易中华胡国平严峻吴晓如刘庆峰王仁华
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利