【技术实现步骤摘要】
一种多语种识别方法和系统
[0001]本专利技术涉及语种识别
,尤其涉及一种多语种识别方法和系统。
技术介绍
[0002]自然语言处理是人工智能研究的重要方面,对自然语言的片段所属的语言种类进行识别,是自然语言处理必须要解决的问题。语种识别是多语言智能处理技术中至关重要的前端处理环节,语音的多语种识别技术可以运用于机器翻译、多语言信息检索和服务、跨语言通信系统、多语种语音识别等方面的前端处理。文本的多语种识别技术可应用于多语种语音合成、多语种翻译等方面前端处理。语音及文本多语种识别技术的一个典型应用场景是机器的多语种同声传译系统中的应用。因此,研究语种识别技术,提高语种识别的准确性和便捷性,具有重大意义。
[0003]自然语言的语种识别包括语音语种识别和文本语种识别。然而,专利技术人发现现有技术至少存在如下问题:目前大部分的语种识别智能技术都是针对不同的语言,分别设计独立的语种识别、语言合成和自然语言处理系统。用户在使用时需要先自行选择即将输入的语音或文本的语种类型,若用户选择的语种类型与输入的语音或文本的语种 ...
【技术保护点】
【技术特征摘要】
1.一种多语种识别方法,其特征在于,包括:获取用户输入的待识别的语言信息,并判断所述待识别的语言信息的类型;其中,所述类型包括语音信息和文本信息;当判断所述语言信息为语音信息时,采用预先训练完成的含瓶颈层的深度神经网络模型,对所述语音信息进行非线性变换,以提取所述语音信息的若干深度趋势特征;将所有所述深度趋势特征分别输入与不同语种类别对应的语种分类模型进行匹配计算,得到不同的所述语种分类模型输出的模型概率得分;其中,所述语种分类模型为采用预设的混合型聚类算法对训练数据进行初始化聚类后训练得到的高斯混合
‑
通用背景模型;所述混合型聚类算法为K
‑
Means聚类算法和层次聚类算法结合的聚类算法;获取输出最大模型概率得分的语种分类模型对应的语种类别,得到所述语音信息的语种识别结果。2.如权利要求1所述的多语种识别方法,其特征在于,所述多语种识别方法,还包括:当判断所述语言信息为文本信息时,采用预先训练的基于N
‑
Gram语言模型对所述文本信息进行分析,以将所述文本信息划分为若干个N元组,并确定每一所述N元组在不同语种类别的出现频率;根据所有所述N元组在不同语种类别的出现频率,以及所述不同语种类别的出现概率,采用预设的朴素贝叶斯分类算法,计算所述文本信息在不同语种类别下的概率得分;获取最大概率得分对应的语种类别,得到所述文本信息的语种识别结果;所述预设的朴素贝叶斯分类算法,满足:其中,为所述概率得分;l
k
为第k个语种类别,k=1,2
…
,n,n为语种类别的个数;P(l
k
)为第k个语种类别的出现概率,P(w
i
|l
k
)为第i个N元组w
i
在语种类别l
k
中的出现频率,i=1,2
…
,m,m为所述N元组的个数。3.如权利要求1所述的多语种识别方法,其特征在于,所述与不同语种类别对应的语种分类模型通过以下步骤训练得到:获取若干语音数据作为背景训练数据,并采用所述混合型聚类算法对所述背景训练数据进行初始化聚类,得到聚类中心;将所述聚类中心作为构建通用背景模型的中心初始值,在最大似然准则下采用期望最大化算法对所述通用背景模型进行训练,得到训练完成的通用背景模型;获取若干标记有语种类别的语音数据作为目标语种训练数据;根据同一语种类别的目标语种训练数据,采用预设的自适应算法,对训练完成的通用背景模型的参数进行更新,得到所述语种类别对应的高斯混合模型;根据不同语种类别对应的高斯混合模型,得到所述与不同语种类别对应的语种分类模型。4.如权利要求3所述的多语种识别方法,其特征在于,所述采用所述混合型聚类算法对所述背景训练数据进行初始化聚类,得到聚类中心,具体包括:采用K
‑
Means聚类算法对所述背景训练数据中的所有数据节点进行初始化聚类,得到K
个初始化聚类;将得到的所述K个初始化聚类采用层次聚类算法进行合并,以得到至少一个目标聚类;获取所述目标聚类的聚类中心。5.如权利要求3所述的多语种识别方法,其特征在于,所述根据同一语种类别的目标语种训练数据,采用预设的自适应算法,对训练完成的通用背景模型的参数进行更新,得到所述语种类别对应的高斯混合模型,具体包括:计算同一语种类别的所述目标语种训练数据的训练向量X={x1,x2,...,x
T
}在所述通用背景模型的高斯分布混合分量的概率分布:其中,P
b
(i|x
t
)表示所述训练向量落入第i个高斯分布混合分量的概率,t=1,2
…
,T;ω
i
为第i个高斯分布混合分量权重,p
i
(x
t
)为训练向量在第i个高斯分布混合分量的概率密度函数;ω
j
为第j个高斯分布混合分量权重,p
j
(x
t
)为训练向量在第j个混合分量的概率密度函数,j=1,2
…
,M,M为高斯分布混合分量个数,且根据所述训练向量在所述通用背景模型的高斯分布混合分量的概率分布和所述训练向量,计算所述通用背景模型的高斯分布混合分量的重估参数;所述重估参数包括权重β
i
、均值E
i
(x)和方差E
i
(x2):):):将所述通用背景模型的高斯分布...
【专利技术属性】
技术研发人员:李心广,马姗娴,刘聪聪,张浩,陈帅,何浩鑫,梁秋璇,李苏梅,吴伟源,何浩然,朱子曦,潘妤,
申请(专利权)人:广东外语外贸大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。