【技术实现步骤摘要】
一种语种识别中的特征融合方法、装置及计算机存储介质
[0001]本申请实施例涉及计算机
,尤其涉及一种语种识别中的特征融合方法、装置及计算机存储介质。
技术介绍
[0002]在语种识别中通常使用基于自注意力的神经网络模型,提取文本的字符特征,或者单词特征作为模型的输入。在这种方式下,使用的特征单一且往往忽视局部特征,导致模型的识别效果较差。
[0003]例如,由于字符特征中的高频字符不具备区分性,导致共用高频字符的语言间较难区分;同时,单词特征词汇表巨大,无法覆盖所有语言出现的单词,导致在实际应用中包含低频单词的文本的预测准确率较低;以及,在语种识别中,训练语料通常使用长文本,往往忽视了语料中所包含的局部特征,这导致训练得到的模型对于短文本的识别效果较差。
[0004]基于此,需要一种更全面的综合多方面特征的特征融合方案,以提高语种识别的准确率。
技术实现思路
[0005]有鉴于此,本申请实施例提供一种更全面的综合多方面特征的特征融合方案,以至少部分解决上述问题。
[0006]根 ...
【技术保护点】
【技术特征摘要】
1.一种语种识别中的特征融合方法,包括:获取待识别文本,确定所述待识别文本中所包含字符的字符顺序和文本长度;分别生成所述待识别文本的字符时序特征、编码区间特征、单词特征和字符特征,其中,所述字符时序特征、编码区块特征、单词特征和字符特征中所包含的特征单元的顺序与所述字符顺序相同,所述字符时序特征、编码区块特征、单词特征和字符特征的长度与所述文本长度相同;融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量。2.如权利要求1所述的方法,其中,融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多维度向量,包括:对所述字符时序特征、编码区块特征、单词特征和字符特征进行加和,生成多特征表示向量;或者,对所述字符时序特征、编码区块特征、单词特征和字符特征进行拼接,生成多特征表示向量。3.如权利要求2所述的方法,其中,融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量,包括:对生成的多特征表示向量进行线性变换或者非线性变换,得到变换后的多特征表示向量。4.如权利要求1所述的方法,其中,所述待识别文本的单词特征通过以下方式生成;确定所述待识别文本的单词中所包含的子词以及子词顺序,所述子词包括所述单词中所包含的前缀、后缀或者词根;将所述单词按照所述字词进行切分,按照子词顺序生成所述待识别文本的单词特征。5.如权利要求1所述的方法,其中,所述方法还包括:确定所述多特征表示向量的转置向量,将所述多特征表示向量的转置向量与所述多特征表示向量相乘,生成原始信息矩阵;确定与所述原始信息矩阵规模相同的多个遮罩矩阵,所述多个遮罩矩阵中包含有不同规模的矩阵窗口遮罩;分别相加所述原始信息矩阵和所述多个遮罩矩阵,得到多个特征矩阵;分别对所述多个特征矩阵进行...
【专利技术属性】
技术研发人员:任星彰,张海波,骆卫华,
申请(专利权)人:阿里巴巴新加坡控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。