一种对中文韵律结构进行预测的方法及其相关设备技术

技术编号:35293108 阅读:22 留言:0更新日期:2022-10-22 12:39
本申请实施例属于人工智能领域,应用于中文韵律结构预测领域中,涉及一种对中文韵律结构进行预测的方法,包括获取输入文本;基于预训练中文BERT获取输入文本的特征序列;基于特征序列和预设多头注意力分类器对输入文本中各汉字进行韵律停顿分类,获取分类后的输出文本;基于输出文本、特征序列和预设韵律结构类别预测输入文本的中文韵律结构。本申请还提供一种对中文韵律结构进行预测的装置、计算机设备及存储介质。本申请相较于传统方法,使用中文BERT避免了复杂且精细的文本特征设计过程,且便于迁移至其它场景,节省了高昂的特征设计成本和韵律数据标注成本,同时,使用多头注意力分类器能更有效地利用上下文信息,分类准确度更高。度更高。度更高。

【技术实现步骤摘要】
一种对中文韵律结构进行预测的方法及其相关设备


[0001]本申请涉及人工智能和中文韵律结构预测
,尤其涉及一种对中文韵律结构进行预测的方法及其相关设备。

技术介绍

[0002]标准中文前端模块至少包含韵律结构预测和字音转换两大功能,韵律结构预测主要用于获取合成文本的上下文相关韵律信息,准确的韵律结构预测对合成语音的节奏感和真实感起到关键作用,根据语音学知识,中文韵律特征具有层级结构,韵律结构预测主要预测韵律词、韵律短语和语调短语这三层结构。
[0003]现有中文韵律预测主要采用语法树规则法、条件随机场和神经网络等方法,这些方法均需要专业人士针对适用场景进行复杂且精细的特征设计,但预测效果欠佳,同时缺乏普适性,难以在不同适用场景间进行迁移。

技术实现思路

[0004]本申请实施例的目的在于提出一种对中文韵律结构进行预测的方法、装置、计算机设备及存储介质,以解决现有技术在进行中文韵律结构预测时,均需要专业人士针对适用场景进行复杂且精细的特征设计,预测效果欠佳,同时缺乏普适性,难以在不同适用场景间进行迁移的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种对中文韵律结构进行预测的方法,采用了如下所述的技术方案:
[0006]一种对中文韵律结构进行预测的方法,包括下述步骤:
[0007]获取输入文本;
[0008]基于预训练中文BERT获取所述输入文本的特征序列;
[0009]基于所述特征序列和预设多头注意力分类器对所述输入文本中各汉字进行韵律停顿分类,获取分类后的输出文本;
[0010]基于所述输出文本、特征序列和预设韵律结构类别预测所述输入文本的中文韵律结构。
[0011]进一步的,在所述基于预训练中文BERT获取所述输入文本的特征序列步骤之前,还包括:
[0012]识别所述输入文本的构成类型;
[0013]若所述输入文本仅包含单个汉语句,则获取该汉语句中各汉字的词向量和位置向量,将所述词向量和位置向量作为所述特征序列;
[0014]若所述输入文本包含多个汉语句,则获取该输入文本中各汉语句的句子向量、各汉语句中各汉字的词向量和位置向量,将所述句子向量、词向量和位置向量作为所述特征序列。
[0015]进一步的,所述预设多头注意力分类器包括多头注意力层和一维卷积层,所述基
于所述特征序列和预设多头注意力分类器对所述输入文本中各汉字进行韵律停顿分类的步骤,具体包括:
[0016]预先基于所述韵律停顿分类类别,对不同韵律停顿分类进行第一区别命名;
[0017]将所述特征序列中词向量作为查询值,将不同韵律停顿分类对应参照字集中各汉字的词向量作为键值和属性值,分别基于预设的不同参数对所述查询值、键值和属性值进行第一线性转换;
[0018]获取经第一线性转换后所述查询值对应的线性序列、所述键值对应的线性序列和所述属性值对应的线性序列;
[0019]将所述查询值对应的线性序列、所述键值对应的线性序列和所述属性值对应的线性序列作为参数,通过注意力层的Attention(Q,K,V)函数,分别获取所述输入文本中各汉字的词向量在不同注意力层获取的特征向量,其中,Q表示所述查询值对应的线性序列,K表示所述键值对应的线性序列,V表示所述属性值对应的线性序列;
[0020]通过所述多头注意力层分别计算所述输入文本中各汉字的特征向量与不同韵律停顿分类中各参照字的词向量间的向量点积,对预设不同韵律停顿分类对应的向量点积进行拼接,获取拼接结果;
[0021]通过所述一维卷积层对所述拼接结果进行第二线性转换,获取拼接之后向量点积对应的线性序列,作为输出线性序列;
[0022]基于所述第一区别命名和所述输出线性序列中各向量点积,识别出所述输入文本中各汉字分别对应的韵律停顿分类。
[0023]进一步的,在所述对不同韵律停顿分类进行第一区别命名步骤之前,还包括:
[0024]基于所述中文BERT获取已完成中文韵律结构预测的批量汉语句中各汉字和所述各汉字的词向量;
[0025]将所述批量汉语句中各汉字作为数据源,基于韵律停顿分类对所述数据源进行预分类,获取不同韵律停顿分类对应的参照字集,其中,在进行所述预分类时,同时将所述各汉字作为标签名称,将其对应词向量作为属性值,进行键对值构建。
[0026]进一步的,在所述一维卷积层对所述拼接结果进行第二线性转换步骤之后,还包括:
[0027]基于sigmoid激活函数对所述输出线性序列中各向量点积进行数值压缩,将其压缩至取值范围为区间[0,1]之间。
[0028]进一步的,所述基于所述第一区别命名和所述输出线性序列中各向量点积,识别出所述输入文本中各汉字分别对应的韵律停顿分类的步骤,具体包括:
[0029]步骤A:获取所述输入文本中单个汉字在所述输出线性序列中对应的多个向量点积,通过对比,选择该多个向量点积中的最大向量点积;
[0030]步骤B:基于所述最大向量点积识别所述汉字对应的参照字集,通过所述参照字集识别所述汉字对应的韵律停顿分类;
[0031]步骤C:重复执行上述步骤步骤A和步骤B,识别出所述输入文本中各汉字分别对应的韵律停顿分类;
[0032]步骤D:将所述输入文本中各汉字和其对应的韵律停顿分类的第一区别命名作为输出文本。
[0033]进一步的,在所述基于所述特征序列和预设多头注意力分类器对所述输入文本中各汉字进行韵律停顿分类步骤之后,还包括:
[0034]基于cross

entropy损失函数,判断所述输入文本中各汉字的分类结果与所述数据源中对应汉字的预分类结果的差异度;
[0035]若所述差异度不满足预设的差异度阈值,则对所述分类器和预训练中文BERT进行配置参数更新,直至所述差异度满足预设的差异度阈值,则模型更新完成。
[0036]进一步的,在获取分类后的输出文本步骤之后,还包括:
[0037]若所述输入文本为单个汉语句,则基于所述特征序列中各汉字的位置向量,对输出文本中各汉字进行反拼接,生成拼接文本;
[0038]若所述输入文本包含多个汉语句,则基于所述特征序列中各汉语句的句子向量和各汉语句中各汉字的位置向量对输出文本中各汉字进行反拼接,生成拼接文本。
[0039]进一步的,所述基于所述输出文本和预设韵律结构类别预测所述输入文本的中文韵律结构,具体包括:
[0040]预先对不同中文韵律结构设置第二区别命名;
[0041]根据预设的中文韵律结构和韵律停顿分类类别的关联关系,将所述第二区别命名与所述第一区别命名进行关联;
[0042]基于所述输出文本中各汉字对应的第一区别命名、位置向量、所述第二区别命名与第一区别命名间的关联关系,识别所述拼接文本的中文韵律结构,即输入文本的中文韵律结构。
[0043]为了解决上述技术问题,本申请实施例还提供一种对中文韵律结构进行预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对中文韵律结构进行预测的方法,其特征在于,包括下述步骤:获取输入文本;基于预训练中文BERT获取所述输入文本的特征序列;基于所述特征序列和预设多头注意力分类器对所述输入文本中各汉字进行韵律停顿分类,获取分类后的输出文本;基于所述输出文本、特征序列和预设韵律结构类别预测所述输入文本的中文韵律结构。2.根据权利要求1所述的对中文韵律结构进行预测的方法,其特征在于,在所述基于预训练中文BERT获取所述输入文本的特征序列步骤之前,还包括:识别所述输入文本的构成类型;若所述输入文本仅包含单个汉语句,则获取该汉语句中各汉字的词向量和位置向量,将所述词向量和位置向量作为所述特征序列;若所述输入文本包含多个汉语句,则获取该输入文本中各汉语句的句子向量、各汉语句中各汉字的词向量和位置向量,将所述句子向量、词向量和位置向量作为所述特征序列。3.根据权利要求2所述的对中文韵律结构进行预测的方法,其特征在于,所述预设多头注意力分类器包括多头注意力层和一维卷积层,所述基于所述特征序列和预设多头注意力分类器对所述输入文本中各汉字进行韵律停顿分类的步骤,具体包括:预先基于所述韵律停顿分类类别,对不同韵律停顿分类进行第一区别命名;将所述特征序列中词向量作为查询值,将不同韵律停顿分类对应参照字集中各汉字的词向量作为键值和属性值,分别基于预设的不同参数对所述查询值、键值和属性值进行第一线性转换;获取经第一线性转换后所述查询值对应的线性序列、所述键值对应的线性序列和所述属性值对应的线性序列;将所述查询值对应的线性序列、所述键值对应的线性序列和所述属性值对应的线性序列作为参数,通过注意力层的Attention(Q,K,V)函数,分别获取所述输入文本中各汉字的词向量在不同注意力层获取的特征向量,其中,Q表示所述查询值对应的线性序列,K表示所述键值对应的线性序列,V表示所述属性值对应的线性序列;通过所述多头注意力层分别计算所述输入文本中各汉字的特征向量与不同韵律停顿分类中各参照字的词向量间的向量点积,对预设不同韵律停顿分类对应的向量点积进行拼接,获取拼接结果;通过所述一维卷积层对所述拼接结果进行第二线性转换,获取拼接之后向量点积对应的线性序列,作为输出线性序列;基于所述第一区别命名和所述输出线性序列中各向量点积,识别出所述输入文本中各汉字分别对应的韵律停顿分类。4.根据权利要求3所述的对中文韵律结构进行预测的方法,其特征在于,在所述对不同韵律停顿分类进行第一区别命名步骤之前,还包括:基于所述中文BERT获取已完成中文韵律结构预测的批量汉语句中各汉字和所述各汉字的词向量;将所述批量汉语句中各汉字作为数据源,基于韵律停顿分类对所述数据源进行预分
类,获取不同韵律停顿分类对应的参照字集,其中,在进行所述预分类时,同时将所述各汉字作为标签名称,将其对应词向量作为属性值,进行键对值构建。5.根据权利要求3所述的对中文韵律结构进行预测的方法,其特征在于,在所述一维卷积层对所述拼接结果进行第二线性转换步骤之后,还包括:基于sigmoid激活函数对所述输出线性序列中各向量点积进行数值压缩,将其压缩至取值范围为区间[0...

【专利技术属性】
技术研发人员:郭洋王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1