筛选发音词典有效词条的方法及装置制造方法及图纸

技术编号:13585256 阅读:57 留言:0更新日期:2016-08-24 15:30
本发明专利技术实施例提供一种筛选发音词典有效词条的方法及装置。遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典。实现了低成本、高效率的发音词典优化,同时提高了发音词典的识别率。

【技术实现步骤摘要】

本专利技术实施例涉及语音
,尤其涉及一种筛选发音词典有效词条的方法及装置
技术介绍
发音词典是语音识别系统的重要组成部分,描述了词的发音方法。对于汉语普通话,一个常见问题是发音词典经常存在大量冗余条目。这个问题的原因是发音词典通常用计算机通过查词典的方式自动生成,而汉语存在大量的多音字,计算机又难以判断应该使用多音字的哪个发音来生成发音词典,只好使用全部发音来生成发音词典的条目。这导致词典中有大量的条目的发音是实际中用不到的。对于词典冗余问题,若是放任这种冗余,不去处理,将带有冗余的词典应用于语音识别系统,带来的是将是空间和时间的浪费以及一定程度的识别准确率下降。现有技术中,针对词典条冗余的处理方法是人工筛选,删除不需要的发音,这种方法可以有效地解决词典条目冗余问题,但缺点是成本太高,工作量过大。因此,一种高效的筛选发音词典有效词条的方法亟待提出。
技术实现思路
本专利技术实施例提供一种筛选发音词典有效词条的方法及装置,用以解决现有技术中人工筛选发音词典从而解决发音词典资源冗余的高成本、高工作量的缺陷,实现了发音词典有效条目的自动筛选。本专利技术实施例提供一种筛选发音词典有效词条的方法,包括:遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典。本专利技术实施例提供一种筛选发音词典有效词条的装置,包括:打分模块,用于遍历语音词典的每一词条,调用统计模型训练模块预先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;筛选模块,用于根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典。本专利技术实施例提供的筛选发音词典有效词条的方法及装置,使用一定数量的语料库进统计模型的训练,从而根据所述统计模型判断语音词典的条目是否为有效条目,改变了现有发音词典条目冗余的缺陷,优化了现有发音词典;与此同时,相对与现有技术中需大量人工筛选无效条目的不足,本专利技术实施例实现了无效词条的高效率、低成本的自动删除。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一的技术流程图;图2为本专利技术实施例二的技术流程图;图3为本专利技术实施例三的技术流程图;图4为本专利技术实施例四的装置结构示意图;图5为本专利技术应用实例的技术流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术的各实施例并非独立存在,而是可以相互结合或者互为依托的。实施例一图1是本专利技术实施例一的技术流程图,结合图1所示,本专利技术实施例一种筛选发音词典有效词条的方法主要包括如下的步骤:步骤110:遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;发音词典是语音识别系统的重要组成部分,描述了词的发音方法。下面的例子是一个用汉语拼音表示的发音词典的片段:保定市 bao3ding4shi4保福寺 bao3fu2si4保福寺桥 bao3fu2si4qiao2对于汉语普通话,一个常见问题是发音词典经常存在大量冗余条目。这个问题的原因是发音词典通常用计算机通过查词典的方式自动生成,而汉语存
在大量的多音字,计算机又难以判断应该使用多音字的哪个发音来生成发音词典,只好使用全部发音来生成发音词典的条目。这导致词典中有大量的条目的发音是实际中用不到的。例如:每个人都这么说 mei3ge4ren2dou1zhe4me1shu每个人都这么说 mei3ge4ren2dou1zhe4me1shu每个人都这么说 mei3ge4ren2dou1zhe4me1yue每个人都这么说 mei3ge4ren2du1zhe4me1shui每个人都这么说 mei3ge4ren2du1zhe4me1shuo每个人都这么说 mei3ge4ren2du1zhe4me1yue4上述示意的词典中,虽然“都”和“说”是多音字,但“每个人都这么说”这个短句的发音是唯一的。在计算机制作词典时,由于不能判断应该采用“都”和“说”的哪个发音,而只好采用了所有可能发音,这造成了大量的冗余。这导致语音识别的资源占用升高、存储空间浪费,也对识别性能有一定干扰。本专利技术实施例通过对一定数量的语料进行训练,得到统计模型,从所述统计模型中读取相应的参数,评估发音词典中词条在和所述统计模型中数据的相似程度。并通过打分机制计算所述词条的得分,从而实现有效词条的筛选。具体的实现过程为:查询所述统计模型,根据所述词条中每个所述单字的平均发音频率获取所述词条的平均分;将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元;从优先级最高的所述字单元开始查询所述统计模型,若查询到所述统计模型中存在所述字单元对应的所述发音频率,则将所述发音频率作为所述单字的分数;否则,将所述单字在所述统计模型中发音频率的最大值作为所述单字的分数。步骤120:根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典。具体地,设定分数阈值,对于每一组文本相同而发音不同的词条集合,若每个所述单字的分数都小于所述分数阈值,则保留所述平均分最高的词条;否则,删除所述词条集合中包含有单字分数小于所述分数阈值的词条。本实施例通过对现有的发音词典中的每一个词条进行打分,并根据分数值进行词条的筛选自动地判断词典条目是否为有效条目,从而能够删除无效条目,有效的解决了现有发音词典词条冗余的缺陷,降低了发音词典的资源占用率以及语音识别的误检率。实施例二图2是本专利技术实施例二的计算流程图,结合图2,本专利技术实施例一种筛选发音词典有效词条的方法中,统计模型的建立由以下的步骤实现:步骤210:将用于训练的所述语料进行预处理得到语料库,其中,所述预处理包括去除冗余的文本、断句、去除标点符号、添加句首和句尾的识别标记等;需要说明的是,本专利技术实施例的所述语料包括一定数量的文本及其对应的拼音。文本的数量应该尽可能大,其内容应尽可能覆盖各个领域,而不应集中在有限的领域。语料文本可以通过网页爬取、转录或直接向数据提供商购买等方式获取。与此同时,语料文本,必须是有意义的句子,而不能是零散的汉字或无意义的汉字组合。因具有实际意义的句子中,每一个单字都有一个与上下文环境结合的发音。因此得到语料库之前需对语料进行冗余文本的去除,得到具有参考意义的文本。另外,对于非多音字的拼音,可以通过计算机查词典得到;对于多音字的拼音,一般需本文档来自技高网
...

【技术保护点】
一种筛选发音词典有效词条的方法,其特征在于,包括如下的步骤:遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典。

【技术特征摘要】
1.一种筛选发音词典有效词条的方法,其特征在于,包括如下的步骤:遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括,根据语料采用如下的步骤训练所述统计模型:将用于训练的所述语料进行预处理得到语料库,其中,所述预处理包括去除冗余的文本、断句、去除标点符号、添加句首和句尾的识别标记等。3.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:根据所述语料库,将所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元;统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发音频率,以所述统计的结果生成所述统计模型。4.根据权利要求3所述的方法,其特征在于,对所述词条打分,进一步包括:查询所述统计模型,根据所述词条中每个所述单字的平均发音频率获取所述词条的平均分;将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元;从优先级最高的所述字单元开始查询所述统计模型,若查询到所述统计模
\t型中存在所述字单元对应的所述发音频率,则将所述发音频率作为所述单字的分数;否则,将所述单字在所述统计模型中发音频率的最大值作为所述单字的分数。5.根据权利要求1或4所述的方法,其特征在于,根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典,进一步包括:设定分数阈值,对于每一组文本相同而发音不同的词条集合,若每个所述单字的分数都小于所述分数阈值,则保留所述平均分最高的词条;否则,删除所述词条集合中包含有单字分数小于所述分数阈值的...

【专利技术属性】
技术研发人员:张俊博
申请(专利权)人:乐视致新电子科技天津有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1