分词方法和装置制造方法及图纸

技术编号:11988190 阅读:96 留言:0更新日期:2015-09-02 17:08
本发明专利技术提出一种分词方法和装置,上述分词方法可以包括:将待合成文本发送给搜索引擎,以及对所述待合成文本进行文本预处理;获得搜索引擎根据所述待合成文本搜索获得的搜索结果,并获得所述搜索结果对应的词典或模型;根据所述搜索结果对应的词典或模型对进行文本预处理后的文本进行分词。本发明专利技术首先利用待合成文本进行搜索,获取更加匹配的分词词典或者模型,从而可以改善分词效果,进而可以改善合成语音的质量。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种分词方法和装置
技术介绍
语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。对于语音合成系统,首先需要对输入的文本进行处理,包括文本预处理、分词、词性标注、注音和韵律层级预测等,然后再通过声学模型,预测各个单元对应的声学特征,最后利用声学参数直接通过声码器合成声音,或者从录音语料库中挑选单元进行拼接。在语音合成系统中,分词是整个系统的基础。分词性能的好坏,直接影响后续处理模块及最终的输出语音效果。现有的分词算法主要有两种,一种是基于词典匹配的分词方法,另一种是基于机器学习的分词方法。但是,基于词典匹配的分词方法,由于词典的规模有限,而且词频信息受到所用的统计语料规模的限制和影响,可能覆盖不够全面,或者语料不够均衡,在处理文本的时候,还是有很多不准确的情况,尤其是面对一些在海量语料统计中不常见的词语时,比如人名、地名、专属名等,往往导致投入了很多精力,结果却不尽理想。而基于机器学习的分词方法,需要非常大量的标注数据,标注数据的数量、精度,也会对模本文档来自技高网...
分词方法和装置

【技术保护点】
一种分词方法,其特征在于,包括:将待合成文本发送给搜索引擎,以及对所述待合成文本进行文本预处理;获得搜索引擎根据所述待合成文本搜索获得的搜索结果,并获得所述搜索结果对应的词典或模型;根据所述搜索结果对应的词典或模型对进行文本预处理后的文本进行分词。

【技术特征摘要】

【专利技术属性】
技术研发人员:李秀林
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1