一种基于基础字典标注的发音标注方法和装置制造方法及图纸

技术编号:21432401 阅读:41 留言:0更新日期:2019-06-22 11:58
本发明专利技术实施例提供了一种基于基础字典标注的发音标注方法和装置。本发明专利技术涉及人工智能技术领域,该方法包括:获取多个汉字单字和每个汉字单字对应的拼音标注;将每个汉字单字和每个汉字单字对应的拼音标注关联存储在第一字典;获取多个拼音标注和每个拼音标注对应的训练发音标注;将多个拼音标注中的每个拼音标注和每个拼音标注对应的训练发音标注关联存储在第二字典;根据第一字典和第二字典确定第三字典;获取用户输入的待标注词汇;基于待标注词汇从第三字典中查询训练发音标注;将查询得到的训练发音标注作为待标注词汇的训练发音标注。因此,本发明专利技术实施例提供的技术方案能够解决现有技术中人工对语音识别字典进行标注效率低的问题。

【技术实现步骤摘要】
一种基于基础字典标注的发音标注方法和装置
本专利技术涉及人工智能
,尤其涉及一种基于基础字典标注的发音标注方法和装置。
技术介绍
目前语音识别字典中语音识别方法是人工对语料中词汇和单字的发音进行标注,具体的步骤:首先,人工对词汇、单字进行拼音标注,其次,人工再将词汇对应的拼音标注和单字对应的拼音标注分别进行发音标注,人工对语音识别字典进行标注存在效率低的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种基于基础字典标注的发音标注方法和装置,用以解决现有技术人工对语音识别字典进行标注效率低的问题。一方面,本专利技术实施例提供了一种基于基础字典标注的发音标注方法,所述方法包括:获取多个汉字单字和所述多个汉字单字中每个汉字单字对应的拼音标注;将所述多个汉字单字中的每个汉字单字和所述每个汉字单字对应的拼音标注关联存储在第一字典;获取多个拼音标注和所述多个拼音标注中每个拼音标注对应的训练发音标注;将所述多个拼音标注中的每个拼音标注和所述每个拼音标注对应的训练发音标注关联存储在第二字典;根据所述第一字典和所述第二字典确定第三字典,所述第三字典用于关联存储所述汉字单字和所述训本文档来自技高网...

【技术保护点】
1.一种基于基础字典标注的发音标注方法,其特征在于,所述方法包括:获取多个汉字单字和所述多个汉字单字中每个汉字单字对应的拼音标注;将所述多个汉字单字中的每个汉字单字和所述每个汉字单字对应的拼音标注关联存储在第一字典;获取多个拼音标注和所述多个拼音标注中每个拼音标注对应的训练发音标注;将所述多个拼音标注中的每个拼音标注和所述每个拼音标注对应的训练发音标注关联存储在第二字典;根据所述第一字典和所述第二字典确定第三字典,所述第三字典用于关联存储所述汉字单字和所述训练发音标注;获取用户输入的待标注词汇;基于所述待标注词汇从所述第三字典中查询训练发音标注;将查询得到的训练发音标注作为所述待标注词汇的训练...

【技术特征摘要】
1.一种基于基础字典标注的发音标注方法,其特征在于,所述方法包括:获取多个汉字单字和所述多个汉字单字中每个汉字单字对应的拼音标注;将所述多个汉字单字中的每个汉字单字和所述每个汉字单字对应的拼音标注关联存储在第一字典;获取多个拼音标注和所述多个拼音标注中每个拼音标注对应的训练发音标注;将所述多个拼音标注中的每个拼音标注和所述每个拼音标注对应的训练发音标注关联存储在第二字典;根据所述第一字典和所述第二字典确定第三字典,所述第三字典用于关联存储所述汉字单字和所述训练发音标注;获取用户输入的待标注词汇;基于所述待标注词汇从所述第三字典中查询训练发音标注;将查询得到的训练发音标注作为所述待标注词汇的训练发音标注。2.根据权利要求1所述的方法,其特征在于,在所述将所述多个拼音标注中的每个拼音标注和所述每个拼音标注对应的训练发音标注关联存储在第二字典之后,所述方法还包括:接收标注方式更改指令,所述标注方式更改指令用于指示更改所述第二字典中的训练发音标注;根据所述标注方式更改指令更改所述第二字典中的训练发音标注。3.根据权利要求1所述的方法,其特征在于,所述基于所述待标注词汇从所述第三字典中查询训练发音标注,包括:将所述待标注词汇分割成多个单字;确定所述多个单字中的多音字的拼音标注;确定所述多音字的拼音标注对应的训练发音标注;在所述第三字典中查询所述多个单字中除多音字外的每个单字的训练发音标注;将所述多个单字的训练发音标注按照预设分隔符进行拼接,得到所述待标注词汇的训练发音标注。4.根据权利要求3所述的方法,其特征在于,所述确定所述多个单字中的多音字的拼音标注,包括:将所述待标注词汇分割成的多个单字与第四字典中存储的多音字进行比较,得到所述待标注词汇中的多音字;从所述待标注词汇中提取目标词语,所述目标词语为包含所述多音字的词语;在所述第四字典中查找所述目标词语中包含的多音字的拼音标注,将查找到的拼音标注作为所述多音字在所述待标注词汇中的拼音标注,其中,所述第四字典是通过下列步骤建立的:获取多个多音字;确定所述多个多音字中每个多音字的所有拼音标注和每个拼音标注对应的词语;将所述多个多音字中每个多音字、所述每个多音字的所有拼音标注和所述每个拼音标注对应的词语关联存储在所述第四字典。5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取用户输入的待标注词汇,包括:接收所述...

【专利技术属性】
技术研发人员:肖玉宾喻红杨承勇敬大彦
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1