一种基于多模态主动学习的中文分词方法技术

技术编号：36021848 阅读：15 留言：0更新日期：2022-12-21 10:17

本发明专利技术公开了一种基于多模态主动学习的中文分词方法，使用音频特征作为模型补充输入，利用声学信息帮助分词。为了减少音频特征工程工作量，仅使用MFCC特征利用深度卷积神经网络ResNet进行音频特征提取。同时引入依存句法信息，利用异构图注意力神经网络实现依存句法结构图节点特征更新，使用注意力机制融合文本特征和句法结构特征得到句法文本特征，以缓解标注语料匮乏问题。本发明专利技术使用了主动学习策略，构造多样性预测模块，预测未标注样本所含信息量，选择富含信息的未标注样本进行人工标注，与已标注样本一起作为训练数据迭代提升模型性能。本发明专利技术在减少数据标注代价的基础上，在中文分词的各方面性能都较其他基线方法有了一定提升。了一定提升。了一定提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态主动学习的中文分词方法

[0001]本专利技术涉及自然语言处理
，涉及一种中文分词(CWS)的方法,尤其涉及一种基于多模态主动学习的中文分词方法。

技术介绍

[0002]中文分词作为中文自然语言处理领域的重要研究内容之一，广泛应用于命名实体识别、词性标注和机器翻译等领域，是许多中文自然语言处理任务的首要预处理环节。近年来，随着深度学习的迅猛发展，中文分词已实现96％
‑
98％的高性能表现。而这往往需要大规模高精度标注数据作为训练依据，但大规模数据的标注工作量是难以想象的。同时在医学影像、国防安全等领域，获取大规模未标注数据集已是非常困难的，更不必说完成高精度的数据标注工作。针对以上问题，学者通常利用主动学习策略，选择有代表性的未标注样本，经过人工标注后与少量已标注样本一起作为训练数据，在最小化数据标注代价的基础上实现高性能的分词表现。但是这些基于传统主动学习策略的方法往往无法与深度预训练模型相结合，利用深度学习的优势，改善分词性能。同时在新闻访谈和新闻实录等场景下，除了文本数据，还存在音频和视频等其他模态数据，主流中文分词方法仅使用文本数据作为模型输入的做法似乎也不是一个非常好的选择。

技术实现思路

[0003]基于现有分词方法的不足，本专利技术提出一种多模态主动学习的中文分词方法，该方法将主动学习策略融入深度学习，构造多样性预测模块预测样本信息量，选择富含信息的未标注样本进行人工标注，与已标注样本进行迭代训练。同时区别于目前仅使用文本特征作为输入的分词方法，利用

【技术保护点】

【技术特征摘要】
1.一种基于多模态主动学习的中文分词方法，其特征在于，所述方法包括如下步骤：步骤1、使用BERT模型对文本序列处理得到文本特征；步骤2、使用音频处理工具LIBROSA和ResNet模型对音频序列处理得到音频特征；步骤3、使用句法解析器Stanfordparser对文本序列处理得到句法结构图，利用异构图注意力网络处理句法结构图提取句法结构特征，使用注意力机制融合句法结构特征和文本特征，得到句法文本特征；步骤4、使用多模态交互模块，融合句法文本特征和音频特征，得到多模态字符向量表示；步骤5、使用CRF输入多模态字符向量表示，实现条件序列标注；步骤6、使用多样性预测模块输入多模态字符向量表示，获取样本所含信息量。2.根据权利要求1所述的一种基于多模态主动学习的中文分词方法，其特征在于，步骤1具体如下：1
‑
1对于文本序列C＝{c1，c2，...，c
n
}，在其前后插入特殊标记[CLS]和[SEP]，接着传入BERT模型，得到文本特征X＝{x1，x2，...，x
n
}。3.根据权利要求1所述的一种基于多模态主动学习的中文分词方法，其特征在于，步骤2具体如下：2
‑
1对于文本序列对应的音频数据，使用蒙特利尔强制对齐器提取音素和字符的精确时间戳以对齐文本和音频数据；2
‑
2使用音频处理工具LIBROSA对音频数据进行处理，提取MFCC特征；2
‑
3使用ResNet模型对音频序列S＝{s1，s2，...，s
n
}进行处理，得到音频特征A＝{a1，a2，...，a
n
}。4.根据权利要求2所述的一种基于多模态主动学习的中文分词方法，其特征在于，步骤3具体如下：3
‑
1使用句法解析器Stanfordparser对文本序列C＝{c1，c2，...，c
n
}进行处理，得到依存句法结构图；3
‑
2使用异构图注意力网络对依存句法结构图进行特征提取，得到句法结构图特征V＝{v1，v2，...，v
m
}；3
‑
3使用注意力机制融合文本特征和句法结构图特征，获取句法文本特征，具体公式如下：下：其中，σ(
·
)表示激活函数，α
ij
表示字符i对句法结构图中节点j的注意力权重，m表示句法结构图节点总数，FFN(
·
)表示前馈神经网络，o
i
表示字符i的句法文本向量表示。5.根据权利要求3或4所述的一种基于多模态主动学习的中文分词方法，其特征在于，步骤4具体如下：4
‑
1使用标准LSTM捕获句法文本和音频向量表示的隐藏状态，具体公式如下：
4
‑
2采用多头线性注意力门控机制控制隐藏状态不同维度的贡献，具体公式...

【专利技术属性】
技术研发人员：吴含前，李昕玮，胡政，李露，王启鹏，吴国威，周爱华，
申请(专利权)人：国网江苏省电力有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人