一种语种识别中的特征融合方法、装置及计算机存储介质制造方法及图纸

技术编号:36367049 阅读:47 留言:0更新日期:2023-01-18 09:23
本申请实施例提供了一种语种识别中的特征融合方法、装置及计算机存储介质。根据本申请实施例提供的特征融合方案,获取待识别文本,确定所述待识别文本中所包含字符的字符顺序和文本长度,分别生成所述待识别文本的字符时序特征、编码区间特征、单词特征和字符特征,其中,所述字符时序特征、编码区块特征、单词特征和字符特征中所包含的特征单元的顺序与所述字符顺序相同,所述字符时序特征、编码区块特征、单词特征和字符特征的长度与所述文本长度相同;融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量,实现对待识别文本从字符、单词、编码区间、字符时序四个维度进行特征提取和融合。四个维度进行特征提取和融合。四个维度进行特征提取和融合。

【技术实现步骤摘要】
一种语种识别中的特征融合方法、装置及计算机存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种语种识别中的特征融合方法、装置及计算机存储介质。

技术介绍

[0002]在语种识别中通常使用基于自注意力的神经网络模型,提取文本的字符特征,或者单词特征作为模型的输入。在这种方式下,使用的特征单一且往往忽视局部特征,导致模型的识别效果较差。
[0003]例如,由于字符特征中的高频字符不具备区分性,导致共用高频字符的语言间较难区分;同时,单词特征词汇表巨大,无法覆盖所有语言出现的单词,导致在实际应用中包含低频单词的文本的预测准确率较低;以及,在语种识别中,训练语料通常使用长文本,往往忽视了语料中所包含的局部特征,这导致训练得到的模型对于短文本的识别效果较差。
[0004]基于此,需要一种更全面的综合多方面特征的特征融合方案,以提高语种识别的准确率。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种更全面的综合多方面特征的特征融合方案,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种语种识别中的特征融合方法,包括:获取待识别文本,确定所述待识别文本中所包含字符的字符顺序和文本长度;分别生成所述待识别文本的字符时序特征、编码区间特征、单词特征和字符特征,其中,所述字符时序特征、编码区块特征、单词特征和字符特征中所包含的特征单元的顺序与所述字符顺序相同,所述字符时序特征、编码区块特征、单词特征和字符特征的长度与所述文本长度相同;融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量。
[0007]根据本申请实施例的第二方面,提供了一种语种识别中的特征融合装置,包括:确定模块,获取待识别文本,确定所述待识别文本中所包含字符的字符顺序和文本长度;特征生成模块,分别生成所述待识别文本的字符时序特征、编码区间特征、单词特征和字符特征,其中,所述字符时序特征、编码区块特征、单词特征和字符特征中所包含的特征单元的顺序与所述字符顺序相同,所述字符时序特征、编码区块特征、单词特征和字符特征的长度与所述文本长度相同;融合模块,融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量。
[0008]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的特征融合方法对应的操作。
[0009]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机
程序,该程序被处理器执行时实现如第一方面所述的特征融合方法。
[0010]根据本申请实施例提供的特征融合方案,获取待识别文本,确定所述待识别文本中所包含字符的字符顺序和文本长度,分别生成所述待识别文本的字符时序特征、编码区间特征、单词特征和字符特征,其中,所述字符时序特征、编码区块特征、单词特征和字符特征中所包含的特征单元的顺序与所述字符顺序相同,所述字符时序特征、编码区块特征、单词特征和字符特征的长度与所述文本长度相同;融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量,实现对待识别文本从字符、单词、编码区间、字符时序四个维度进行特征提取和融合,从而使得提取得到的多特征表示向量综合了局部特征和全局特征,基于融合得到的多特征表示向量进行模型的训练和识别,可以显著增加语种识别的准确率。
附图说明
[0011]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0012]图1为本申请实施例所提供的一种语种识别中的特征融合方法的流程示意图;
[0013]图2为本申请实施例所提供的一种生成的各特征的示意图;
[0014]图3为本申请实施例提供的一种基于多特征表示向量进行模型训练的示意图;
[0015]图4为本申请实施例所提供的一种基于多特征表示向量进行多头自注意力的模型训练的示意图;
[0016]图5a为本申请实施例所提供的一种字符所涉及的窗口的示意图;
[0017]图5b为本申请实施例所提供的一种单词所涉及的窗口的示意图;
[0018]图6为本申请实施例所提供的一种语种识别中的特征融合装置的结构示意图;
[0019]图7为根据本申请实施例五的一种电子设备的结构示意图。
具体实施方式
[0020]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0021]下面结合本申请实施例附图进一步说明本申请实施例具体实现。如图1所示,图1为本申请实施例所提供的一种语种识别中的特征融合方法的流程示意图,包括:
[0022]S101,获取待识别文本,确定所述待识别文本中所包含字符的字符顺序和文本长度。
[0023]字符顺序即指的是待识别文本中的字符的顺序,其中,待识别文本中的字符也包括了在文本中的字符之间的分隔符号,例如,分隔符号包括字符间的空格号,文本的结尾符号等等。
[0024]例如,对于文本“Cl
éꢀ
USB”,其中所包含的字符即可以是“C”、“l”、
“é”
、“[B]”、“U”、

S”、“B”和“[E]”,其中的字符“[B]”即为分隔符,字符“[E]”即为结尾符。其字符顺序即为依次的从字符“C”指向“[E]”的顺序。
[0025]文本长度即为从字符“C”到字符“[E]”的字符的数量,对于文本“Cl
éꢀ
USB”而言,其文本长度即为8。
[0026]S103,分别生成所述待识别文本的字符时序特征、编码区间特征、单词特征和字符特征。
[0027]字符时序特征、编码区块特征、单词特征和字符特征的长度与所述文本长度相同指的是各特征分别包含有与文本长度相同的多个特征单元(例如,对于长度为8的文本Cl
éꢀ
USB”,生成的各特征即包含有8个特征单元),在同一特征中所包含的的特征单元与文本中所包含的字符一一对应,各特征单元的顺序也与字符顺序所对应。参见图2,图2为本申请实施例所提供的生成的各特征的示意图。
[0028]具体而言,字符特征即指的是待为别文本中所包含的各字符。包括了其中所包含的分隔符和结尾符。例如对于文本“Cl
éꢀ
USB”,可以根据之前已经确定的各字符顺序得到对应于各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语种识别中的特征融合方法,包括:获取待识别文本,确定所述待识别文本中所包含字符的字符顺序和文本长度;分别生成所述待识别文本的字符时序特征、编码区间特征、单词特征和字符特征,其中,所述字符时序特征、编码区块特征、单词特征和字符特征中所包含的特征单元的顺序与所述字符顺序相同,所述字符时序特征、编码区块特征、单词特征和字符特征的长度与所述文本长度相同;融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量。2.如权利要求1所述的方法,其中,融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多维度向量,包括:对所述字符时序特征、编码区块特征、单词特征和字符特征进行加和,生成多特征表示向量;或者,对所述字符时序特征、编码区块特征、单词特征和字符特征进行拼接,生成多特征表示向量。3.如权利要求2所述的方法,其中,融合所述字符时序特征、编码区块特征、单词特征和字符特征生成多特征表示向量,包括:对生成的多特征表示向量进行线性变换或者非线性变换,得到变换后的多特征表示向量。4.如权利要求1所述的方法,其中,所述待识别文本的单词特征通过以下方式生成;确定所述待识别文本的单词中所包含的子词以及子词顺序,所述子词包括所述单词中所包含的前缀、后缀或者词根;将所述单词按照所述字词进行切分,按照子词顺序生成所述待识别文本的单词特征。5.如权利要求1所述的方法,其中,所述方法还包括:确定所述多特征表示向量的转置向量,将所述多特征表示向量的转置向量与所述多特征表示向量相乘,生成原始信息矩阵;确定与所述原始信息矩阵规模相同的多个遮罩矩阵,所述多个遮罩矩阵中包含有不同规模的矩阵窗口遮罩;分别相加所述原始信息矩阵和所述多个遮罩矩阵,得到多个特征矩阵;分别对所述多个特征矩阵进行...

【专利技术属性】
技术研发人员:任星彰张海波骆卫华
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1