一种基于多模态主动学习的中文分词方法技术

技术编号:36021848 阅读:15 留言:0更新日期:2022-12-21 10:17
本发明专利技术公开了一种基于多模态主动学习的中文分词方法,使用音频特征作为模型补充输入,利用声学信息帮助分词。为了减少音频特征工程工作量,仅使用MFCC特征利用深度卷积神经网络ResNet进行音频特征提取。同时引入依存句法信息,利用异构图注意力神经网络实现依存句法结构图节点特征更新,使用注意力机制融合文本特征和句法结构特征得到句法文本特征,以缓解标注语料匮乏问题。本发明专利技术使用了主动学习策略,构造多样性预测模块,预测未标注样本所含信息量,选择富含信息的未标注样本进行人工标注,与已标注样本一起作为训练数据迭代提升模型性能。本发明专利技术在减少数据标注代价的基础上,在中文分词的各方面性能都较其他基线方法有了一定提升。了一定提升。了一定提升。

【技术实现步骤摘要】
一种基于多模态主动学习的中文分词方法


[0001]本专利技术涉及自然语言处理
,涉及一种中文分词(CWS)的方法,尤其涉及一种基于多模态主动学习的中文分词方法。

技术介绍

[0002]中文分词作为中文自然语言处理领域的重要研究内容之一,广泛应用于命名实体识别、词性标注和机器翻译等领域,是许多中文自然语言处理任务的首要预处理环节。近年来,随着深度学习的迅猛发展,中文分词已实现96%

98%的高性能表现。而这往往需要大规模高精度标注数据作为训练依据,但大规模数据的标注工作量是难以想象的。同时在医学影像、国防安全等领域,获取大规模未标注数据集已是非常困难的,更不必说完成高精度的数据标注工作。针对以上问题,学者通常利用主动学习策略,选择有代表性的未标注样本,经过人工标注后与少量已标注样本一起作为训练数据,在最小化数据标注代价的基础上实现高性能的分词表现。但是这些基于传统主动学习策略的方法往往无法与深度预训练模型相结合,利用深度学习的优势,改善分词性能。同时在新闻访谈和新闻实录等场景下,除了文本数据,还存在音频和视频等其他模态数据,主流中文分词方法仅使用文本数据作为模型输入的做法似乎也不是一个非常好的选择。

技术实现思路

[0003]基于现有分词方法的不足,本专利技术提出一种多模态主动学习的中文分词方法,该方法将主动学习策略融入深度学习,构造多样性预测模块预测样本信息量,选择富含信息的未标注样本进行人工标注,与已标注样本进行迭代训练。同时区别于目前仅使用文本特征作为输入的分词方法,利用文本特征和音频特征作为输入。而且本专利技术进一步融入依存句法信息,使用异构图注意力网络提取句法结构特征,缓解标注数据匮乏问题。
[0004]为了实现上述目的,本专利技术提供的技术方案如下:一种基于多模态主动学习的中文分词方法,所述方法包括如下步骤:
[0005]步骤1、使用BERT模型对文本序列处理得到文本特征;
[0006]1‑
1对于文本序列C={c1,c2,

,c
n
},在其前后插入特殊标记[CLS]和[SEP],接着传入BERT模型,得到文本特征X={x1,x2,

,x
n
}。
[0007]步骤2、使用音频处理工具LIBROSA和ResNet模型对音频序列处理得到音频特征;
[0008]2‑
1对于文本序列对应的音频数据,使用蒙特利尔强制对齐器提取音素和字符的精确时间戳以对齐文本和音频数据。
[0009]2‑
2使用音频处理工具LIBR0SA对音频数据进行处理,提取MFCC特征。
[0010]2‑
3使用ResNet模型对音频序列S={s1,s2,...,s
n
}进行处理,得到音频特征A={a1,a2,...,a
n
}。
[0011]步骤3、使用句法解析器Stanfordparser对文本序列处理得到句法结构图,利用异构图注意力网络处理句法结构图提取句法结构特征,使用注意力机制融合句法结构特征和
文本特征,得到句法文本特征;
[0012]3‑
1使用句法解析器Stanfordparser对文本序列C={c1,c2,...,c
n
}进行处理,得到依存句法结构图。
[0013]3‑
2使用异构图注意力网络对依存句法结构图进行特征提取,得到句法结构图特征V={v1,v2,...,v
m
}。
[0014]3‑
3使用注意力机制融合文本特征和句法结构图特征,获取句法文本特征,具体公式如下:
[0015][0016][0017]其中,σ(
·
)表示激活函数,α
ij
表示字符i对句法结构图中节点j的注意力权重,m表示句法结构图节点总数,FFN(
·
)表示前馈神经网络,o
i
表示字符i的句法文本向量表示。
[0018]步骤4、使用多模态交互模块,融合句法文本特征和音频特征,得到多模态字符向量表示;
[0019]4‑
1使用标准LSTM捕获句法文本和音频向量表示的隐藏状态,具体公式如下:
[0020][0021][0022]4‑
2采用多头线性注意力门控机制控制隐藏状态不同维度的贡献,具体公式如下:
[0023][0024][0025][0026]其中,由和拼接而来,和是投射矩阵,和是线性投射矩阵。L表示线性注意力层数,d表示的维度大小,h
i
表示第i个字符的多模态向量表示。此外,按照句法文本和音频特征的各自维度将h
i
拆分成和用于获取下一个字符的多模态向量表示,LinearMA(
·
)表示多头线性注意力门控机制,用以挖掘不同模态的不同维度重要性。
[0027]步骤5、使用CRF输入多模态字符向量表示,实现条件序列标注;
[0028]5‑
1将多模态字符向量表示输入CRF,获取字符预测标签,具体公式如下:
[0029][0030]其中,表示输入CRF的多模态字符向量表示,n表示字符总数,和为特征函数,Y表示所有可能预测标签序列。
[0031]步骤6、使用多样性预测模块输入多模态字符向量表示,获取样本所含信息量;
[0032]6‑
1对多模态字符向量表示取平均,获取句子级别多模态向量表示。具体公式如下:
[0033]S
k
=MEAN(h
k1
,h
k2


,h
kn
)
[0034]其中,h
ki
表示第k个样本的第i个字符,MEAN(
·
)表示平均函数,S
k
表示第k个样本的句子级别多模态向量表示;
[0035]6‑
2使用多层前馈神经网络,输入句子级别多模态向量表示,预测样本所含信息量。具体公式如下:
[0036][0037]其中,表示样本预测信息量,FFN(
·
)表示多层前馈神经网络;
[0038]6‑
3训练阶段,对一个minibatch的N个样本的句子级别多模态向量表示,使用Dropout相似样本构造方法,构造样本的相似句子级别多模态向量表示。具体公式如下:
[0039]S
k+N
=Dropout(S
k
)
[0040]其中,S
k+N
表示第k个样本的相似句子级别多模态向量表示,Dropout(
·
)表示对向量不同维度值按照特定概率置零;
[0041]6‑
4训练阶段,利用数据增强后的2N个句子级别多模态向量表示,构造样本信息量伪标签,具体公式如下:
[0042][0043]其中,sim(v,u)=v...

【技术保护点】

【技术特征摘要】
1.一种基于多模态主动学习的中文分词方法,其特征在于,所述方法包括如下步骤:步骤1、使用BERT模型对文本序列处理得到文本特征;步骤2、使用音频处理工具LIBROSA和ResNet模型对音频序列处理得到音频特征;步骤3、使用句法解析器Stanfordparser对文本序列处理得到句法结构图,利用异构图注意力网络处理句法结构图提取句法结构特征,使用注意力机制融合句法结构特征和文本特征,得到句法文本特征;步骤4、使用多模态交互模块,融合句法文本特征和音频特征,得到多模态字符向量表示;步骤5、使用CRF输入多模态字符向量表示,实现条件序列标注;步骤6、使用多样性预测模块输入多模态字符向量表示,获取样本所含信息量。2.根据权利要求1所述的一种基于多模态主动学习的中文分词方法,其特征在于,步骤1具体如下:1

1对于文本序列C={c1,c2,...,c
n
},在其前后插入特殊标记[CLS]和[SEP],接着传入BERT模型,得到文本特征X={x1,x2,...,x
n
}。3.根据权利要求1所述的一种基于多模态主动学习的中文分词方法,其特征在于,步骤2具体如下:2

1对于文本序列对应的音频数据,使用蒙特利尔强制对齐器提取音素和字符的精确时间戳以对齐文本和音频数据;2

2使用音频处理工具LIBROSA对音频数据进行处理,提取MFCC特征;2

3使用ResNet模型对音频序列S={s1,s2,...,s
n
}进行处理,得到音频特征A={a1,a2,...,a
n
}。4.根据权利要求2所述的一种基于多模态主动学习的中文分词方法,其特征在于,步骤3具体如下:3

1使用句法解析器Stanfordparser对文本序列C={c1,c2,...,c
n
}进行处理,得到依存句法结构图;3

2使用异构图注意力网络对依存句法结构图进行特征提取,得到句法结构图特征V={v1,v2,...,v
m
};3

3使用注意力机制融合文本特征和句法结构图特征,获取句法文本特征,具体公式如下:下:其中,σ(
·
)表示激活函数,α
ij
表示字符i对句法结构图中节点j的注意力权重,m表示句法结构图节点总数,FFN(
·
)表示前馈神经网络,o
i
表示字符i的句法文本向量表示。5.根据权利要求3或4所述的一种基于多模态主动学习的中文分词方法,其特征在于,步骤4具体如下:4

1使用标准LSTM捕获句法文本和音频向量表示的隐藏状态,具体公式如下:
4

2采用多头线性注意力门控机制控制隐藏状态不同维度的贡献,具体公式...

【专利技术属性】
技术研发人员:吴含前李昕玮胡政李露王启鹏吴国威周爱华
申请(专利权)人:国网江苏省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1