一种基于中文分词优化的中文语音合成方法、电子设备及存储介质技术

技术编号:38827049 阅读:21 留言:0更新日期:2023-09-15 20:06
本发明专利技术公开了一种基于中文分词优化的中文语音合成方法:首先利用基于加权自蒸馏的中文分词模型CWS

【技术实现步骤摘要】
一种基于中文分词优化的中文语音合成方法、电子设备及存储介质


[0001]本专利技术涉及中文语音合成
,具体涉及一种基于中文分词优化的中文语音合成方法、电子设备及存储介质。

技术介绍

[0002]语音交互是人机交互的重要方式,通过语音合成模块使机器人向用户提供相应信息。以医疗服务机器人为例,由于交互过程中往往存在大量的专业术语,且没有明确的词汇边界,使得合成的音频中没有相应的停顿,容易导致医疗歧义信息问题。以疾病名“高铁血蛋白血症”为例,存在“高铁”、“白血症”(即白血病)等歧义信息,降低人机交互质量。
[0003]现有语音合成的输入是一串由其他模块(例如对话系统)输出的自然语言文本,对于中文领域来说,为了避免歧义或是多音字等问题,就需要将文本序列拆分成对应的词序列,即中文分词。中文分词作为中文自然语言处理中的一项基础任务,其任务的质量直接影响下游任务的性能,如问答系统,情感识别以及文本分类等。面向医疗文本的中文分词将大量包含医疗领域专业术语的字符串序列,切分为具有明确边界信息的词汇序列,减少文本中的歧义信息,为下游任务提供更准确的医疗语义。医疗文本往往包含大量的疾病名、手术名、药品名及医疗术语,这类专业术语相较通用语料大都是未登录(Out

Of

Vocabulary,OOV)词,OOV词的识别性能直接影响模型的分词质量。成词信息(wordhood)对于中文文本建模十分重要,其本质是一种能够反映文本中字符之间共现概率的文本特征,能够提高模型对OOV词的处理能力,但是现有整合成词信息的成词记忆网络在建模时并未考虑标签之间的依赖关系,(例如:标签S后面应该跟标签S或者标签B,而标签B后面应该跟标签M或者标签E),这导致模型的分词性能特别是对OOV词的识别有所欠缺。
[0004]中文分词的相关研究可追溯到20世纪80年代,并在通用领域取得了丰硕的成果。而特定领域的中文分词研究由于存在大量的专业术语,导致在通用领域具有良好性能的模型和工具应用到专业领域时性能明显下降。Ding等人提出一种利用领域通用知识来处理专业领域的分词模型,使用迁移学习将通用知识从高资源领域迁移到低资源领域,提高模型对于未登录词的处理能力,以解决面向专业领域分词任务。Ye等人提出一种利用词嵌入的半监督跨领域中文分词模型,将从无监督专业领域语料中训练得到的词嵌入整合到模型的训练过程,利用词嵌入中的领域知识提高模型对专业领域术语的分词性能。李鹏等人提出一种解决特定领域未登录词识别质量较低问题的模型,通过筛选无监督语料中较高置信度的n

gram片段,利用n

gram片段中的先验知识辅助模型识别未登录词,在建筑领域中取得了分词性能提升。Tian等人基于键

值网络和注意力机制提出一种利用文本成词信息的成词记忆网络,并且提出一种利用成词记忆网络的中文分词模型WMSEG,取得了最前沿的中文分词性能,而且提高了模型对OOV词的处理能力。
[0005]但这些方法主要存在两方面的不足:(1)但现有模型在建模语境特征和语义特征之间的高阶语义关联上有所不足;(2)目前研究未能将中文分词与医疗领域服务机器人联
系起来,无法更进一步地利用模型。

技术实现思路

[0006]本专利技术的目的是为解决现有技术中存在的上述缺陷,提供一种基于中文分词优化的中文语音合成方法、电子设备及存储介质。
[0007]本专利技术为解决上述技术问题的不足,所采用的技术方案是:一种基于中文分词优化的中文语音合成方法:首先利用基于加权自蒸馏的中文分词模型CWS

WSD将医疗服务机器人交互过程中产生的回复文本进行分词,明确文本中的词汇边界,然后根据分词结果插入相应的停顿标志符,最后将插入标识符后的文本送入Tacotron2进行语音合成。
[0008]作为本专利技术一种基于中文分词优化的中文语音合成方法的进一步优化:中文分词具体为:
[0009]利用编码器将输入的文本序列分别进行语义编码和语境编码,生成包含文本语义信息的语义特征向量及包含成词信息的语境特征向量;
[0010]利用交互注意力机制将语境特征和语义特征之间的高阶语义关联引入到模型的训练过程,并且利用加权自蒸馏机制约束模型特征学习,指导模型学习文本中的语境特征;
[0011]将包含语境特征和语义特征之间的高阶语义关联的输出特征送入解码器进行分词标注。
[0012]作为本专利技术一种基于中文分词优化的中文语音合成方法的进一步优化:中文分词的方法具体包括以下步骤:
[0013]S1、构造词典N,用做筛选文本中包含相应字符的n

gram片段;
[0014]S2、给定文本序列X=[x1,

,x
i


,x
X
],其中X表示文本序列的长度,对于文本序列中每个字符x
i
,在词典N中遍历得到该文本序列中包含字符x
i
的所有n

gram片段,从而得到键列表K
i
=[k
i,1


,k
i,j


,k
i,m
]和值列表V
i
=[v
i,1


,v
i,j


,v
i,m
],m表示包含字符x
i
的n

gram片段的数量,用键嵌入表示k
i,j
以及值嵌入表示v
i,j
,其中i表示字符在文本序列X中的位置,j表示n

gram片段k
i,j
在键列表中的位置;
[0015]S3、将文本序列X输入到CWS

WSD模型,通过编码器对序列中每个字符x
i
编码出一个包含文本语义信息的特征向量h
i
,公式如下:
[0016]Encoder(X)=[h1,L,h
i
,L,h
|X|
],其中,Encoder表示编码器,编码器具体为Bert编码器;
[0017]S4、将语义特征向量h
i
、键嵌入及值嵌入进行计算得到包含成词信息的语境特征向量o,计算公式如下:
[0018][0019][0020]其中:h
i
表示编码器所生成的包含文本语义信息的特征向量;p
i,j
表示关于包含字
符x
i
的n

gram片段k
i,j
的概率分布;o
i
表示成词记忆网络所生成的包含成词信息的语境特征向量;
[0021]S5、利用语境注意力机制建模两类特征相关性加权的包含语境特征的嵌入向量,利用语义注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于中文分词优化的中文语音合成方法,其特征在于:首先利用基于加权自蒸馏的中文分词模型CWS

WSD将医疗服务机器人交互过程中产生的回复文本进行分词,明确文本中的词汇边界,然后根据分词结果插入相应的停顿标志符,最后将插入标识符后的文本送入Tacotron2进行语音合成。2.如权利要求1所述一种基于中文分词优化的中文语音合成方法,其特征在于:中文分词具体为:利用编码器将输入的文本序列分别进行语义编码和语境编码,生成包含文本语义信息的语义特征向量及包含成词信息的语境特征向量;利用交互注意力机制将语境特征和语义特征之间的高阶语义关联引入到模型的训练过程,并且利用加权自蒸馏机制约束模型特征学习,指导模型学习文本中的语境特征;将包含语境特征和语义特征之间的高阶语义关联的输出特征送入解码器进行分词标注。3.如权利要求2所述一种基于中文分词优化的中文语音合成方法,其特征在于:中文分词的方法具体包括以下步骤:S1、构造词典N,用做筛选文本中包含相应字符的n

gram片段;S2、给定文本序列X=[x1,

,x
i
,

,x
X
],其中X表示文本序列的长度,对于文本序列中每个字符x
i
,在词典N中遍历得到该文本序列中包含字符x
i
的所有n

gram片段,从而得到键列表K
i
=[k
i,1
,

,k
i,j
,

,k
i,m
]和值列表V
i
=[v
i,1
,

,v
i,j
,

,v
i,m
],m表示包含字符x
i
的n

gram片段的数量,用键嵌入表示k
i,j
以及值嵌入表示v
i,j
,其中i表示字符在文本序列X中的位置,j表示n

gram片段k
i,j
在键列表中的位置;S3、将文本序列X输入到CWS

WSD模型,通过编码器对序列中每个字符x
i
编码出一个包含文本语义信息的特征向量h
i
,公式如下:Encoder(X)=[h1,L,h
i
,L,h
|X|
],其中,Encoder表示编码器,编码器具体为Bert编码器;S4、将语义特征向量h
i
、键嵌入及值嵌入进行计算得到包含成词信息的语境特征向量o,计算公式如下:向量o,计算公式如下:其中:h
i
表示编码器所生成的包含文本语义信息的特征向量;p
i,j
表示关于包含字符x
i
的n

gram片段k
i,j
的概率分布;o
i
表示成词记忆网络所生成的包含成词信息的语境特征向量;S5、利用语境注意力机制建模两类特征相关性加权的包含语境特征的嵌入向量,利用语义注意力机制建模两类特征相关性加权的包含语义特征的嵌入向量,接着将两个加权之后嵌入向量进行拼接融合,然后将融合特征向量进行降维,以此将语境特征和语义特征之间的高阶语义关联整合到模型的训练过程,指导模型进行特征学习,最后得到交互注意力
机制的输出特征;S6、解码器根据交互注意力机制的输出特征预测文本的标签序列Y=y1Ly
i
L y
X
,公式如下:Decoder(a

)=Y其中:Decoder表示解码器,a

=a1L a
i
L a
X
,以CRF作为解码器,算法定义公式如下:其中:W
c
∈R
|B|
×
|B|
,b
c
∈R
|B|
,两者均为可训练参数;S7、CWS

WSD模型首先使用编码器将输入的文本序列进行语义编码,生成包含文本语义信息的特征向量,通过注意力机制和键

值记忆网络编码包含文本语境信息的特征向量,然后利用交互注意力机制将语境特征和语义特征之间的高阶语义关联引入到模型的训练过程,并且利用加权自蒸馏机制约束模型特征学习,指导模型学习...

【专利技术属性】
技术研发人员:马致远刘高飞潘美琦米金鹏唐宋刘丹
申请(专利权)人:上海理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1