【技术实现步骤摘要】
实体多音字消歧方法和实体多音字消歧设备
本公开涉及信息处理处理领域,更具体地,涉及一种实体多音字消歧方法和实体多音字消歧设备,其能够从关联开放数据中找出实体的发音,从而能够对实体多音字的发音进行消歧。
技术介绍
TTS(TextToSpeech)技术又称文语转换技术,是当前语音合成的代表性内容,是指利用计算机将任意文本转化为语音的技术。因为对于输入的文本需要将其转化为对应的发音,因此多音字消歧是文语转换的核心问题。多音字转换的正确与否,极大地影响了用户对合成语音的理解情况。如果对多音字消歧的准确率高,则合成的语言更容易被用户理解,听起来也更加自然流畅。在中文或日文中,存在大量多音字,因此如何确定多音字的发音就成为针对中文或日文文本语音合成领域中需要重点解决的问题。目前,对多音字的消歧主要包括两种方法:一是通过人工总结并制定规则的方法;二是利用机器学习的方法对多音字进行消歧。其中,基于人工规则的方法耗费人力,且有些情况下多音字的发音毫无规律可循,人也无法判断其发音,例如在日语中,同一个汉字在不同的人的名字里发音也可能不同。而在机器学习的方法中,往往需要大量的人工标注 ...
【技术保护点】
一种实体多音字消歧方法,包括:实体识别步骤,用于从输入的文本中识别出包括多音字的至少一个实体;以及确定发音步骤,对于所述至少一个实体中的每个实体,将该实体链接到关联开放数据LOD的数据集中的相应实体,并且基于所述相应实体的其属性值包含发音的至少一个属性和/或与所述相应实体相关联的发音,确定该实体的发音。
【技术特征摘要】
1.一种实体多音字消歧方法,包括:实体识别步骤,用于从输入的文本中识别出包括多音字的至少一个实体;以及确定发音步骤,对于所述至少一个实体中的每个实体,将该实体链接到关联开放数据LOD的数据集中的相应实体,并且基于所述相应实体的其属性值包含发音的至少一个属性和/或与所述相应实体相关联的发音,确定该实体的发音。2.根据权利要求1所述的实体多音字消歧方法,其中,所述至少一个属性包括其属性值直接为发音的至少一个第一预定属性。3.根据权利要求2所述的实体多音字消歧方法,其中,所述至少一个属性还包括其属性值包含能够利用至少一个发音提取模板所提取出的发音的至少一个第二预定属性。4.根据权利要求2所述的实体多音字消歧方法,其中,所述至少一个第一预定属性是通过以下方式获得的:获得所述LOD的数据集中的每个实体的名字;根据该实体的名字中的每个字在字典中的所有发音来列出该实体的所有发音作为候选发音;如果在该实体的属性中存在其属性值与该实体的候选发音中的任一个发音完全匹配的属性,则选择该属性作为一个候选属性;以及在针对所述LOD的数据集中的所有实体所选择出的所有候选属性当中,选择其表示发音的概率大于预定阈值的至少一个候选属性作为所述至少一个第一预定属性。5.根据权利要求4所述的实体多音字消歧方法,其中,所述候选属性的所述表示发音的概率是所述候选属性的属性值为发音的次数与所述候选属性在所述LOD的数据集中的出现总次数的比值。6.根据权利要求3所述的实体多音字消歧方法,其中,所述至少一个发音提取模板是通过以下方式生成的:对于所述LOD的数据集中的包括所述至少一个第一预...
【专利技术属性】
技术研发人员:房璐,缪庆亮,孟遥,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。