一种方言地域识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24760233 阅读:42 留言:0更新日期:2020-07-04 10:06
本申请提供一种方言地域识别方法、装置、电子设备及存储介质。该方法包括:获取待识别语音数据;利用方言地域识别模型对所述待识别语音数据进行分析,获得所述待识别语音数据对应的地域信息;其中,所述方言地域识别模型通过将训练语音与多级地理地域分区建立关联关系,并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。本申请实施例在对方言进行识别时所使用的方言地域识别模型是经过对多级地域分区的训练语音进行多次数据筛选后训练获得的,经过对训练语音多次数据筛选,能够大大提高训练语音的质量,进而利用方言地域识别模型能够准确的识别出待识别语音数据的地域信息。

A dialect region recognition method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种方言地域识别方法、装置、电子设备及存储介质
本申请涉及语音处理
,具体而言,涉及一种方言地域识别方法、装置、电子设备及存储介质。
技术介绍
方言是指基于地域、年龄、性别、社会地位、时代等因素产生的某一语种的子变体。语言反映民族文化,方言反映地域文化,前者是整体,后者是分体,二者之间是大同和小异的关系。地域方言是语言因地域方面的差别而形成的变体,是全民语言的不同地域上的分支,是语言发展不平衡性而在地域上的反映。方言是语言的地域变体,是地域性的语言交际手段。不同的方言反映了不同的地域文化。按照中国的习惯,方言是在一定地域通行的、同共通语有所差异的话。就一般情况来说,在一定的地域形成了方言,同时也形成了地域文化。从地理分布来看,地域文化区与方言分区虽然不是绝对的一一对应关系,但至少也是基本对应或部分相互对应。语种/方言识别,是通过计算机自动甄别一段语音或视频资料中所说的语言或方言种类的分类技术。在业务应用上,语种/方言识别通常根据具体的任务需求选定目标语种的范围,从大量语音中筛选出重点关注的某些语种/方言的语音。可以从词语的本文档来自技高网...

【技术保护点】
1.一种方言地域识别方法,其特征在于,包括:/n获取待识别语音数据;/n利用方言地域识别模型对所述待识别语音数据进行分析,获得所述待识别语音数据对应的地域信息;其中,所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系,并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。/n

【技术特征摘要】
1.一种方言地域识别方法,其特征在于,包括:
获取待识别语音数据;
利用方言地域识别模型对所述待识别语音数据进行分析,获得所述待识别语音数据对应的地域信息;其中,所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系,并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。


2.根据权利要求1所述的方法,其特征在于,在利用方言地域识别模型对所述待识别语音数据进行分析之前,所述方法还包括:
获取多条训练语音数据,每条所述训练语音数据包括网络通信地址,根据所述网络通信地址与语音地图中的方言地域标签进行关联,获得每种方言地域标签对应的训练语音数据集;
对每种方言地域标签对应的训练语音数据集进行非语音滤除处理,获得有效语音数据集;
将所述有效语音数据集中的非方言的训练语音数据剔除,获得候选语音数据集;
对所述候选语音数据集进行奇异数滤除,获得目标语音数据集;
利用各个方言地域标签对应的目标语音数据集对所述方言地域识别模型进行训练,获得训练好的方言地域识别模型。


3.根据权利要求2所述的方法,其特征在于,所述对每种方言地域标签对应的训练语音数据集进行非语音滤除处理,包括:
针对每一训练语音数据,获取所述训练语音数据的采样点数值,根据所述采样点数值计算对应的信噪比和有效语音长度;
若根据所述信噪比和/或所述有效语音长度确定所述训练语音数据为非语音数据,则将所述训练语音数据滤除。


4.根据权利要求2所述的方法,其特征在于,所述对每种方言地域标签对应的训练语音数据集进行非语音滤除处理,包括:
利用语音音乐分类器对每一训练语音数据进行分析;所述语音音乐分类器用于分析所述训练语音数据是否为音乐类型;
将属于音乐类型的训练语音数据滤除。


5.根据权利要求2所述的方法,其特征在于,所述将所述有效语音数据集中的非方言的训练语音数据剔除,包括:
将所有的有效语音数据集中的训练语音数据划分为非汉语方言地域语音和汉语方言地域语音,所述汉语方言地域语音包括非汉语官话地域语音和汉语官话地域语音;
通过汉语识别模型将所述非汉语方言地域语音中的属于汉语普通话的训练语音数据和属于汉语方言的训练语音数据剔除;

【专利技术属性】
技术研发人员:郑榕郑尧曦
申请(专利权)人:北京远鉴信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1