【技术实现步骤摘要】
一种基于中文分词优化的中文语音合成方法、电子设备及存储介质
[0001]本专利技术涉及中文语音合成
,具体涉及一种基于中文分词优化的中文语音合成方法、电子设备及存储介质。
技术介绍
[0002]语音交互是人机交互的重要方式,通过语音合成模块使机器人向用户提供相应信息。以医疗服务机器人为例,由于交互过程中往往存在大量的专业术语,且没有明确的词汇边界,使得合成的音频中没有相应的停顿,容易导致医疗歧义信息问题。以疾病名“高铁血蛋白血症”为例,存在“高铁”、“白血症”(即白血病)等歧义信息,降低人机交互质量。
[0003]现有语音合成的输入是一串由其他模块(例如对话系统)输出的自然语言文本,对于中文领域来说,为了避免歧义或是多音字等问题,就需要将文本序列拆分成对应的词序列,即中文分词。中文分词作为中文自然语言处理中的一项基础任务,其任务的质量直接影响下游任务的性能,如问答系统,情感识别以及文本分类等。面向医疗文本的中文分词将大量包含医疗领域专业术语的字符串序列,切分为具有明确边界信息的词汇序列,减少文本中的歧义信息,为下游任务提供更准确的医疗语义。医疗文本往往包含大量的疾病名、手术名、药品名及医疗术语,这类专业术语相较通用语料大都是未登录(Out
‑
Of
‑
Vocabulary,OOV)词,OOV词的识别性能直接影响模型的分词质量。成词信息(wordhood)对于中文文本建模十分重要,其本质是一种能够反映文本中字符之间共现概率的文本特征,能够提高模型对OOV词的处理能力,但是 ...
【技术保护点】
【技术特征摘要】
1.一种基于中文分词优化的中文语音合成方法,其特征在于:首先利用基于加权自蒸馏的中文分词模型CWS
‑
WSD将医疗服务机器人交互过程中产生的回复文本进行分词,明确文本中的词汇边界,然后根据分词结果插入相应的停顿标志符,最后将插入标识符后的文本送入Tacotron2进行语音合成。2.如权利要求1所述一种基于中文分词优化的中文语音合成方法,其特征在于:中文分词具体为:利用编码器将输入的文本序列分别进行语义编码和语境编码,生成包含文本语义信息的语义特征向量及包含成词信息的语境特征向量;利用交互注意力机制将语境特征和语义特征之间的高阶语义关联引入到模型的训练过程,并且利用加权自蒸馏机制约束模型特征学习,指导模型学习文本中的语境特征;将包含语境特征和语义特征之间的高阶语义关联的输出特征送入解码器进行分词标注。3.如权利要求2所述一种基于中文分词优化的中文语音合成方法,其特征在于:中文分词的方法具体包括以下步骤:S1、构造词典N,用做筛选文本中包含相应字符的n
‑
gram片段;S2、给定文本序列X=[x1,
…
,x
i
,
…
,x
X
],其中X表示文本序列的长度,对于文本序列中每个字符x
i
,在词典N中遍历得到该文本序列中包含字符x
i
的所有n
‑
gram片段,从而得到键列表K
i
=[k
i,1
,
…
,k
i,j
,
…
,k
i,m
]和值列表V
i
=[v
i,1
,
…
,v
i,j
,
…
,v
i,m
],m表示包含字符x
i
的n
‑
gram片段的数量,用键嵌入表示k
i,j
以及值嵌入表示v
i,j
,其中i表示字符在文本序列X中的位置,j表示n
‑
gram片段k
i,j
在键列表中的位置;S3、将文本序列X输入到CWS
‑
WSD模型,通过编码器对序列中每个字符x
i
编码出一个包含文本语义信息的特征向量h
i
,公式如下:Encoder(X)=[h1,L,h
i
,L,h
|X|
],其中,Encoder表示编码器,编码器具体为Bert编码器;S4、将语义特征向量h
i
、键嵌入及值嵌入进行计算得到包含成词信息的语境特征向量o,计算公式如下:向量o,计算公式如下:其中:h
i
表示编码器所生成的包含文本语义信息的特征向量;p
i,j
表示关于包含字符x
i
的n
‑
gram片段k
i,j
的概率分布;o
i
表示成词记忆网络所生成的包含成词信息的语境特征向量;S5、利用语境注意力机制建模两类特征相关性加权的包含语境特征的嵌入向量,利用语义注意力机制建模两类特征相关性加权的包含语义特征的嵌入向量,接着将两个加权之后嵌入向量进行拼接融合,然后将融合特征向量进行降维,以此将语境特征和语义特征之间的高阶语义关联整合到模型的训练过程,指导模型进行特征学习,最后得到交互注意力
机制的输出特征;S6、解码器根据交互注意力机制的输出特征预测文本的标签序列Y=y1Ly
i
L y
X
,公式如下:Decoder(a
′
)=Y其中:Decoder表示解码器,a
′
=a1L a
i
L a
X
,以CRF作为解码器,算法定义公式如下:其中:W
c
∈R
|B|
×
|B|
,b
c
∈R
|B|
,两者均为可训练参数;S7、CWS
‑
WSD模型首先使用编码器将输入的文本序列进行语义编码,生成包含文本语义信息的特征向量,通过注意力机制和键
‑
值记忆网络编码包含文本语境信息的特征向量,然后利用交互注意力机制将语境特征和语义特征之间的高阶语义关联引入到模型的训练过程,并且利用加权自蒸馏机制约束模型特征学习,指导模型学习...
【专利技术属性】
技术研发人员:马致远,刘高飞,潘美琦,米金鹏,唐宋,刘丹,
申请(专利权)人:上海理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。