【技术实现步骤摘要】
一种莫尔斯自动识别模型的构建方法及自动识别方法
[0001]本专利技术涉及报文识别
,尤其涉及一种莫尔斯自动识别模型的构建方法及自动识别方法。
技术介绍
[0002]莫尔斯码是一种用不同时长的高低电平表示信息的编码方式,电平信号的不同组合代表了不同的符号、数字和英文字母。在无线电领域,莫尔斯码用短音表示高电平中的短码,长音表示高电平中的长码,通常用“嘀”和“嗒”描述这两种信号,收信人员通过听觉识别完成信号的接收。莫尔斯电码的发送方式通常分为机器发送和人工发送,传统的接收方式是人工听音辨识。通常情况下,通过人工听音辨识的方式接收莫尔斯电码,不仅对信号员的专业度和熟练度有较高要求,而且在长时间单一重复的辨识工作中,信号员的收信和译码的准确性也会受到影响。
[0003]伴随着人工智能的发展,以深度学习技术为基础的莫尔斯自动识别成为新的接收方式。现有技术包括基于卷积神经网络(CNN)、双向长短时记忆网络(Bi
‑
LSTM)的端到端识别方法以及基于卷积神经网络(CNN)的图像识别方法。由于真实场景下的莫 ...
【技术保护点】
【技术特征摘要】
1.一种莫尔斯自动识别模型的构建方法,其特征在于,包括如下步骤:获取莫尔斯语音数据集,对莫尔斯语音数据进行标注,得到标注后的数据集D
p
’
;对标注后的数据集D
p
’
进行预处理,得到包含原始语速数据和扩展语速数据的预处理后数据集D
p1
;对所述预处理后数据集D
p1
进行莫尔斯特征提取和特征扩展,得到包含莫尔斯语音特征序列和其对应的字符序列的训练数据集D
t
;利用所述训练数据集D
t
对语音识别模型M进行训练,得到训练好的莫尔斯自动识别模型M
p
;其中所述语音识别模型M基于transformer框架构建。2.根据权利要求1所述的构建方法,其特征在于,所述对标注后的数据集D
p
’
进行预处理,包括:将标注后的莫尔斯数据集D
p
’
以速度变化作扩展,得到由加速语音数据和减速语音数据构成的扩展语速数据;将所述扩展语速数据和原始的标注后的莫尔斯数据集D
p
’
整合在一起得到预处理后数据集D
p1
。3.根据权利要求1所述的构建方法,其特征在于,所述进行莫尔斯特征提取,包括:(1)对所述预处理后数据集D
p1
中的语音数据进行莫尔斯语音特征频带范围的特征提取,得到每帧语音数据降维后的Fbank特征数据集D
r
;(2)对降维后的Fbank特征数据集D
r
进行拼帧和跳帧的特征处理,得到包含上下文语音特征的Fbank特征数据集D
r
’
,具体公式如下:P(F
n*d
)=F
’
m*(k+1)d
其中F为初始特征,维度为n*d,n代表单条语音数据的帧数,d代表每帧的特征维度,P为拼帧跳帧处理;F
’
为拼帧跳帧处理后的特征,维度为m*(k+1)d,k为拼k帧跳k帧中的帧数,m为拼帧跳帧处理之后的单条语音数据的特征序列长度。4.根据权利要求1所述的构建方法,其特征在于,所述特征扩展,包括:(1)使用预处理后数据集D
p1
对GMM
‑
HMM声学模型进行训练,通过维特比对齐得到单个莫尔斯字符在语音数据对应帧中的特征序列并作为候选特征序列,建立每个莫尔斯字符与所述候选特征序列的映射表;(2)获取历史积累的莫尔斯文本数据,根据所述文本数据中的字符内容从映射表中随机选取对应字符的一条候选特征序列作为单个字符的伪语音特征序列进行完整的单条所述文本数据的伪语音特征拼接,得到包含拼接后的单条文本的伪语音特征序列和其对应的单条文本字符序列的伪特征数据集D
h
;将莫尔斯特征提取得到的Fbank特征数据集D
r
’
和所述伪特征数据集D
h
合并,得到包含莫尔斯语音特征序列和其对应的字符序列的训练数据集D
t
。5.根据权利要求1所述的构建方法,其特征在于,所述对语音识别模型M进行训练,包括:(1)采用迁移学习的方式,设置语音识别模型M的初始隐层参数,得到模型M1;其中,所述初始隐层参数通过使用标注数据充分的语音数据预训练模型而获得;(2)将词表V导入所述模型M1;其中,所述词表V通过统计标注后的数据集D
p
...
【专利技术属性】
技术研发人员:张乐乐,冯少辉,张建业,
申请(专利权)人:北京中科智加科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。