一种序列数据识别的方法和装置制造方法及图纸

技术编号:25839768 阅读:36 留言:0更新日期:2020-10-02 14:19
本发明专利技术公开了一种序列数据识别的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:通过预定序列切分方式,对语音序列进行序列切分,得到多个语音子序列;输入多个语音子序列至识别模型中,得到与各语音子序列相应的元素;在与各语音子序列相应的元素数量均为一个的情况下,根据各语音子序列所处时序,按序排列所得到的元素,以生成与语音序列相应的文本序列。该实施方式将复杂问题分解为多个相对简单的问题,并将解决简单问题的模型连接成整体解决方案;由于进行了多次约束,模型无需糅合空间和时间建模,所需参数量、数据量大幅减少,进而提高了文本序列的完整性和准确性,为整体模型的可解释性提供了依据。

【技术实现步骤摘要】
一种序列数据识别的方法和装置
本专利技术涉及计算机
,尤其涉及一种序列数据识别的方法和装置。
技术介绍
序列数据识别是机器学习和人工智能领域的重要考虑因素,例如语音识别技术,目前已广泛应用于手机、手表、智能家居等设备的智能交互。随着深度学习技术的发展,深度神经网络以其强大的拟合和泛化能力,逐步成为机器学习的首选。seq2seq(sequencetosequencemodel,序列到序列模型),是一类端到端(endtoend)模型,在序列数据识别中取得了很大的成功。相比传统方法,端到端模型无需提取大量特征并进行数据处理,例如在语音识别中,端到端模型输入的是原始音频序列或者初级的频域特征(MFCC倒谱系数),输出的是语音对应的文本序列。这类模型结构清晰、易于使用和调试,而且在大数据的辅助下能够接近甚至超过人的性能。在实现本专利技术的过程中,专利技术人发现现有模型至少存在如下问题:1)模型内部参数过多:对于输入的数据到输出语义符号之间的复杂数据,需依赖模型进行拟合关联,因此所需参数数量众多,常达千万个以上,这使得模型难以本文档来自技高网...

【技术保护点】
1.一种序列数据识别方法,其特征在于,包括:/n通过预定序列切分方式,对语音序列进行序列切分,得到多个语音子序列;/n输入所述多个语音子序列至识别模型中,得到与各语音子序列相应的元素;/n在与各语音子序列相应的元素数量均为一个的情况下,根据各语音子序列所处时序,按序排列所得到的元素,以生成与所述语音序列相应的文本序列。/n

【技术特征摘要】
1.一种序列数据识别方法,其特征在于,包括:
通过预定序列切分方式,对语音序列进行序列切分,得到多个语音子序列;
输入所述多个语音子序列至识别模型中,得到与各语音子序列相应的元素;
在与各语音子序列相应的元素数量均为一个的情况下,根据各语音子序列所处时序,按序排列所得到的元素,以生成与所述语音序列相应的文本序列。


2.根据权利要求1所述的方法,其特征在于,所述通过预定序列切分方式,对语音序列进行序列切分,得到多个语音子序列,包括:
分析所述语音序列的时长,结合预定语音子序列数量,确定序列划分间隔;
根据所述序列划分间隔对所述语音序列进行间隔划分,以及对间隔划分后的语音序列进行序列切分,得到多个语音子序列。


3.根据权利要求1所述的方法,其特征在于,在所述通过预定序列切分方式,对语音序列进行序列切分之前,还包括:
输入所述语音序列至所述识别模型中,得到与所述语音序列相应的元素,生成元素集合;
所述得到与各语音子序列相应的元素,还包括:
生成与各语音子序列相应的第一元素集合,剔除所述第一元素集合中不存在于所述元素集合中的元素。


4.根据权利要求3所述的方法,其特征在于,在生成与所述语音序列相应的文本序列之前,还包括:
根据所述元素集合和所述第一元素集合,确定丢失元素;其中,所述丢失元素位于所述第一元素集合之间;
若所述丢失元素的数量大于一个,则根据预定语料库对所述丢失元素进行组合,得到组合元素;
统计各组合元素的出现次数,按照出现次数从高到低的顺序对所得到的组合元素进行排序,以生成丢失文本序列;
所述得到与所述语音序列相应的文本序列,包括:
根据排序后的元素,结合所述丢失文本序列,生成与所述语音序列相应的文本序列。


5.根据权利要求1所述的方法,其特征在于,在所述得到与各语音子序列相应的元素之后,还包括:
若与任意一个语音子序列相应的元素数量大于一个,则通过所述预定序列切分方式,对所述任意一个语音子序列进行序列切分,得到多个第一语音子序列;
输入所述多个第一语音子序列至所述识别模型中,得到与各第一语音子序列相应的元素;
若与任意一个第一语音子序列相应的元素数量大于一个,则重复上述序列切分和元素识别步骤,直到所得元素的数量均小于等于一个为止。


6.一种序列数据识别装置,其特征在于,包括:
序列切分模块,用于通过预定序列切分方式,对语音序列进行序列切...

【专利技术属性】
技术研发人员:王虎杜强司润泽穆玉芝
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1