一种基于分组卷积神经网络的标点标注模型制造技术

技术编号:26381113 阅读:27 留言:0更新日期:2020-11-19 23:49
本发明专利技术涉及神经网络语音识别技术领域,尤其是一种基于分组卷积神经网络的标点标注模型,包括基本建模单元和词嵌入层,基本建模单元由分组卷积神经网络与Position‑WiseFeed‑Forward Networks构成,所述的分组卷积神经网络与Position‑WiseFeed‑Forward Networks之间以残差连接,输入先进入词嵌入层经过一次线性变化后输入到基本建模单元结构中,经过N层的基本建模单元运算后输出到线性层后经过Softmax后输出在目标标签上的概率分布,本发明专利技术能够高效地并行化运算。

【技术实现步骤摘要】
一种基于分组卷积神经网络的标点标注模型
本专利技术涉及神经网络语音识别
,具体领域为一种基于分组卷积神经网络的标点标注模型。
技术介绍
标点标注是语音识别的一个后处理任务。语音识别模型的输出文本一般不包含标点符号,利用标点模型打上标点可以提高文本的可读性,尤其对于长文本更为重要。并且,有正确标点的文本可以提高下游任务,如词性标注、实体命名识别、情感分析等语义理解任务中的模型性能。处理标点标注问题最常见的策略是将其看成一个序列标注问题,对序列中的每一个符号预测一个标签。这个标签看成是当前这个词与前一个词之间的标点符号。在这个任务中通常定义四种标签:没有标点(O)、逗号(,)、句号(.)、问号(?)。像其它序列标注问题,如条件随机场(CRF)、循环神经网络(RNN,LSTM,GRU)以及带注意力机制的循环神经网络等经典的序列标注模型被广泛地运用到标点标注这个任务中。然而常规的循环神经网络序列标注模型,在计算t时刻时需要依赖t-1时刻的运算结果,也就是需要依次计算,这样的按序列依次运算的方式不利于并行化计算。基于Self-attention的Transformer结构近年来被广泛地成功运用到自然语言处理的各个任务中。该结构虽然能够并行运算,但是Self-attention却需要序列长度平方级的计算复杂度与存储空间。并且由于在标点预测任务中,序列的起始位置可能会在自然语句的任何位置,位置信息编码在该任务中会对模型有负面影响,然而在Transformer结构中,由于Self-attention本身不包括位置信息,位置信息编码是必须包括的模块,因此Transformer结构不适合标点预测任务。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种基于分组卷积神经网络的标点标注模型。为实现上述目的,本专利技术提供如下技术方案:一种基于分组卷积神经网络的标点标注模型,包括基本建模单元和词嵌入层,基本建模单元由分组卷积神经网络与Position-WiseFeed-ForwardNetworks构成,所述的分组卷积神经网络与Position-WiseFeed-ForwardNetworks之间以残差连接,分组卷积神经网络结构用于处理字符间的关系,各个维度分组间相对独立,Position-WiseFeed-ForwardNetworks结构用于处理字符内各个维度间的信息传递,各个字符间相对独立;输入先进入词嵌入层,经过一次线性变化后输入到基本建模单元结构中,经过N层的基本建模单元运算后输出到线性层后经过Softmax后输出在目标标签上的概率分布。优选的,所述的分组卷积神经网络由两层分组卷积层构成。优选的,设定分组卷积层的分组数G等于输入通道数C1,中间通道数C2为4C1,输出通道数为C1,即,输入输入到第一层分组卷积层,其中L为序列长度,dmodel为模型隐状态大小;y=max(GroupedConv(x,K1,C1,C2,G),0)其中C1=G=dmodel,K1为卷积核的大小。优选的,第二层分组卷积层的输入通道数为C2,输出通道数为C1,卷积核大小为K2,分组数G;z=GroupedConv(y,K2,C2,C1,G)其中优选的,Position-WiseFeed-ForwardNetworks的算法公式为:FFN(x)=max(0,xW1+b1)W2+b2其中与现有技术相比,本专利技术的有益效果是:采用了基于分组卷积神经网络与Position-WiseFeed-ForwardNetworks作为基本建模单元的模型结构,该结构在标点预测任务上不止性能优秀,并且能够高效地并行运算。该模型在标点标注任务上取得了比基于循环神经网络的模型更好的效果。与基于循环神经网络相比,该结构不需要序列依次运算,可以高效地并行化运算;与基于Self-attention的Transformer相比,分组卷积结构不需要序列长度平方级的计算复杂度与存储空间,是一种更为高效的结构。附图说明图1为本专利技术的模型结构图;图2为本专利技术的分组卷积神经网络结构图;图3为本专利技术的实验结果比较表。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1至2,本专利技术提供一种技术方案:一种基于分组卷积神经网络的标点标注模型,包括基本建模单元(ConvFFN)和词嵌入层(InputEmbedding),基本建模单元由分组卷积神经网络(ConvFFN)与Position-WiseFeed-ForwardNetworks构成,所述的分组卷积神经网络与Position-WiseFeed-ForwardNetworks之间以残差连接,如图1所示,子结构间以残差连接,并插入Layer-Normalization分组卷积神经网络结构用于处理字符间的关系,各个维度分组间相对独立,Position-WiseFeed-ForwardNetworks结构用于处理字符内各个维度间的信息传递,各个字符间相对独立;输入先进入词嵌入层(InputEmbedding),经过一次线性变化后输入到基本建模单元结构中,经过N层的基本建模单元运算后输出到线性层后经过Softmax后输出在目标标签上的概率分布。所述的分组卷积神经网络由两层分组卷积层构成,如图2所示,其中图2中不同的灰度颜色代表不同的分组。图2为卷积核的大小为3。设定分组卷积层的分组数G等于输入通道数C1,中间通道数C2为4C1,输出通道数为C1,即,输入输入到第一层分组卷积层,其中L为序列长度,dmodel为模型隐状态大小;y=max(GroupedConv(x,K1,C1,C2,G),0)其中C1=G=dmodel,K1为卷积核的大小。第二层分组卷积层的输入通道数为C2,输出通道数为C1,卷积核大小为K2,分组数G;z=GroupedConv(y,K2,C2,C1,G)其中Position-WiseFeed-ForwardNetworks(FFN)的算法公式为:FFN(x)=max(0,xW1+b1)W2+b2其中通过本技术方案,实验数据采用IWSLT2012英法机器翻译数据集的英语文本作为训练集与开发集分别包括2.1M与296K单词。采用IWSLT2011ASR任务的测试集的references作为标点预测的测试集。实验中采用GloveWordVector作为词词嵌入层的初始化。可调节的超参数包括dmodel,K1,K2,G,C1,C2,N,实验中优化的最优参数为dmodel=G=C1=256,K1=K本文档来自技高网
...

【技术保护点】
1.一种基于分组卷积神经网络的标点标注模型,其特征在于:包括基本建模单元和词嵌入层,基本建模单元由分组卷积神经网络与Position-WiseFeed-Forward Networks构成,所述的分组卷积神经网络与Position-WiseFeed-Forward Networks之间以残差连接,/n分组卷积神经网络结构用于处理字符间的关系,各个维度分组间相对独立,Position-WiseFeed-Forward Networks结构用于处理字符内各个维度间的信息传递,各个字符间相对独立;/n输入先进入词嵌入层,经过一次线性变化后输入到基本建模单元结构中,经过N层的基本建模单元运算后输出到线性层后经过Softmax后输出在目标标签上的概率分布。/n

【技术特征摘要】
1.一种基于分组卷积神经网络的标点标注模型,其特征在于:包括基本建模单元和词嵌入层,基本建模单元由分组卷积神经网络与Position-WiseFeed-ForwardNetworks构成,所述的分组卷积神经网络与Position-WiseFeed-ForwardNetworks之间以残差连接,
分组卷积神经网络结构用于处理字符间的关系,各个维度分组间相对独立,Position-WiseFeed-ForwardNetworks结构用于处理字符内各个维度间的信息传递,各个字符间相对独立;
输入先进入词嵌入层,经过一次线性变化后输入到基本建模单元结构中,经过N层的基本建模单元运算后输出到线性层后经过Softmax后输出在目标标签上的概率分布。


2.根据权利要求1所述的一种基于分组卷积神经网络的标点标注模型,其特征在于:所述的分组卷积神经网络由两层分组卷积层构成。


3.根据权利要求2所述的一种基于...

【专利技术属性】
技术研发人员:徐书尧秦龙陈进陆勇毅
申请(专利权)人:北京先声智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1