基于迁移学习的中医临床语音识别方法及模型技术

技术编号:35935523 阅读:37 留言:0更新日期:2022-12-14 10:22
本发明专利技术公开了一种基于迁移学习的中医临床语音识别方法及模型,包括模型迁移和实例迁移两种学习方法,将通用领域的语音识别模型权重参数共享至中医临床语音识别模型,实现模型的迁移;并通过将西医领域的数据迁移至中医临床领域,解决了中医临床语音识别任务中中医临床领域数据量不足的问题,实现了中医临床语音到文本的转换。通过语音识别录入中医临床电子病历,代替中医医生通过手写病历或键盘录入病历的传统方式,可以有效节约医生录入病历的时间和减轻医生工作负担。间和减轻医生工作负担。间和减轻医生工作负担。

【技术实现步骤摘要】
基于迁移学习的中医临床语音识别方法及模型


[0001]本专利技术属于语音识别领域,涉及一种语音识别方法和模型。

技术介绍

[0002]语音识别技术共经历过三个阶段,第一阶段是采用基于模板匹配的动态时间规整(Dynamic Time Warping,DTW)算法;第二阶段采用基于隐马尔可夫模型(Hidden Markov Model,HMM)的机器学习方法;当前第三阶段采用的是基于深度学习的端到端(End

to

End,E2E)技术框架。
[0003]深度学习的过程必定伴随着大规模的数据,两者密切相关。目前工业界利用深度学习构造的端到端的语音识别系统涉及的训练数据一般有几千小时甚至几万小时,大量的训练数据使得模型更具有鲁棒性以及识别正确率更高。而如何获得大量的中医临床数据集成为中医语音识别研究的难题。
[0004]现代医学大多是指西医,在全球范围类发展,数据源较多。而中医基本只在国内发展,早期中医临床记录大多由手写完成,往往可读性差且无法保证数据完整,从而使得在中医临床领域下的数据极度缺乏,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于迁移学习的中医临床语音识别方法,其特征在于,包括:S1:构建端到端的中医临床语音识别模型;S2:构建通用领域语音识别数据集;S3:构建中医临床语音识别数据集,包括西医迁移数据和中医临床数据;S4:模型训练:首先对通用领域语音识别数据集训练至收敛得到预训练模型,再通过中医临床语音识别数据集对预训练模型进行微调得到中医临床语音识别模型。2.根据权利要求1所述的基于迁移学习的中医临床语音识别方法,其特征在于,所述步骤S1包括:S11:提取中医音频特征:通过分帧、预加重、加窗、快速傅里叶变换、梅尔滤波提取到中医音频特征;S12:获取中医文本特征:将中医音频对应的文本标签映射为建模单元中对应的索引;S13:音频特征增强:在步骤S11提取的中医音频特征的时域和频域范围内进行掩蔽加噪处理;S14:降采样:采用卷积核大小为3
×
3,步长为2的两层二维卷积的降采样网络,降低中医音频帧数;S15:将中医音频特征输入到所述中医临床语音识别模型的编码器:编码器包括两个前向反馈模块、一个多头自注意力模块、一个卷积模块;所述前向反馈模块包括两个全连接层、两个残差层和一个非线性激活函数ReLU,在第一层全连接层之前进行了一次层标准化;所述多头自注意力模块包括层标准化、多头自注意力、残差层,Q,K,V是由输入的中医音频特征经过一次线性变化所得,接着计算Q与K
T
之间的点乘,为防止结果过大,需要除以一个尺度标准其中d
k
为Q或K向量的维度,然后再利用Softmax将其结果归一化为概率分布,然后再乘以V得到权重求和的表示,相应的公式如下:所述卷积模块采用因果卷积,包括两个逐点卷积、门控线性单元、一维深度卷积、两个层标准化、激活函数ReLU、残差层;所述中医临床语音识别模型的输入为中医音频特征x,输出为y,则有x

=x

+MHSA(x

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)x


=x

+Conv(x

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中FFN表示前向反馈模块,MHSA表示多头自注意力模块,Conv表示卷积模块,Layernorm表示层标准化;x

、x

、x
″′
分别表示经过前向反馈模块、多头自注意力模块和卷积模块的输出;S16:位置编码:在模型解码器部分采用了位置编码,将中医音频对应的文本序列的位置信息加入到输入的文本数据中,可以使模型学习到中医文本的序列关系,位置信息通过
位置编码获得,其公式如下:位置编码获得,其公式如下:pos表示字符在当前文本特征向量的位置索引,i表示文本特征向量的索引,d
model
表示编码维度,设为256;S17:将步骤S12中的中医文本特征与其位置编码相加后输入到解码器:解码器包括一个掩蔽多头自注意力模块、一个多头注意力模块、一个前向反馈模块;其中在所述多头注意力模块处的K、V来自编码器的输出。3.根据权利要求1所述的基于迁移学习的中医临床语音识别方法,其特征在于,所述步骤S2中的通用领域语音识别数据集中的通用领域没有特指某一领域,其数据较易获取,所述通用领域与中医临床领域文本之间具有相同汉字。4.根据权利要求1所述的基于迁移学习的中医临床语音识别方法,其特征在于,所述步骤S3中通过基于实例的迁移学习构建中医临床语音识别数据集,将西医数据迁移至中医数据,迁移的条件为西医文本与中医文本相似,以余弦相似度来度量,计算公式如下:其中A,B表示两个不同的句向量;中医文本数据共n条,西医文本数据共m条,采用的方法如下:首先利用BERT将每条中医文本和西医文本生成对应的句向量,生成的句向量能准确表达句子的语义;然后计算中医文本之间的平均余弦相似度,以其作为西医数据是否与中医数据相似的判定条件,具体操作为:在中医文本内计算出每条语句与其他中医语句的余弦相似度,每条语句需要进行n

1次计算,设其值分别为x1,

,x
n
‑1,则第i条中医语句与该中医文本的余弦相似度为其平均值,计算公式为最后得到整个中医文本的平均相似度:最后计算每条西医文本向量与每条中医文本向量的余弦相似度,每条西医语句需要进行n次相似度计算,设其分别值为y1,

,y
n
,则其平均相似度:若则将该条西医数据迁...

【专利技术属性】
技术研发人员:王亚强张林舒红平唐聃
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1