改进BERT的文本语义匹配设备、系统、方法及存储介质技术方案

技术编号:29615245 阅读:17 留言:0更新日期:2021-08-10 18:30
改进BERT的文本语义匹配设备、系统、方法及存储介质,尤其涉及文本语义匹配、BER、词粒度、相对位置编码和注意力池化的匹配设备、系统、方法及存储介质,属于自然语言处理领域;目的是解决BERT模型训练时间较长、绝对位置编码未能表明句子中词与词间的相对位置和输出文本表示不能完全利用BERT模型输出的文本表示序列的问题;本发明专利技术通过建立所述传输层中的词嵌入机制、所述编码层的相对位置编码机制以及通过所述输出层对池化后的注意力机制处理文本,完成后续文本语义匹配;本发明专利技术不仅提高了文本匹配的准确率,更加准确体现句子的不同位置和不同位置间的信息,并采用注意力池化方式,得到降维后的文本表示包含更多的语义信息。

【技术实现步骤摘要】
改进BERT的文本语义匹配设备、系统、方法及存储介质
本专利技术改进BERT的文本语义匹配方法,尤其涉及文本语义匹配、BER、词粒度、相对位置编码和注意力池化的匹配设备、系统、方法及存储介质,属于自然语言处理领域。
技术介绍
文本语义匹配是自然语言处理领域(NLP)的基本任务之一,旨在对两个文本的语义进行建模,并对它们之间的关系进行分类。文本语义匹配的研究可应用在自动问答、机器翻译、对话系统和复述等自然语言处理任务中,这些任务在一定程度上都可以抽象为文本匹配任务。文本语义匹配任务面临的首要问题是文本表示问题,文本表示是指将文本中的字词映射为词向量表示,使得计算机能够对文本进行处理。近年来,随着大规模预训练模型的发展,文本表示技术得到了巨大的发展,多种基于大规模文本预料的预训练模型如雨后春笋般涌现,如ELMo、OpenAIGPT、BERT、XLNet等。自从BERT预训练模型取得巨大成功之后,基于BERT预训练模型的改进也被不断提出,如RoBERTa、ALBERT等。尽管上述模型已经取得了不错的成绩,但是仍存在很多不足之处,以往的降维的三种方法为提取[CLS]向量、平均池化和最大池化;上述三种方法过于片面的应用输出的三维文本表示序列,因此提出的方法融合了[CLS]向量与其余向量之间的关系,得到更加准确体现文本语义的文本表示。对预训练模型从文本中所提取到的输出文本序列进行池化操作生成文本表示是文本语义匹配模型的重要一步。Collobert等提出一种全局最大池化方法,通过文本表示序列中各向量对应元素的最大值生成语义匹配的文本表示。Conneau等将双向长短时记忆(Bi-LSTM)网络分别与全局最大池化和全局平均池化相结合来编码句子级语义信息,通过对比得出Bi-LSTM结合全局最大池化的结构在句子级语义编码上具有最优效果。Kim基于word2vec嵌入模型生成文本表示序列,并将卷积神经网络(CNN)与全局最大池化相结合进行文本分类任务。Hu等结合CNN和全局最大池化,提出一种无需先验知识的文本语义匹配模型。BERT提出是所采用的池化方法为提取特殊字符[CLS]的向量作为语义匹配文本表示。上述方法均只用到了输出文本序列的一部分,并没有将BERT中的特殊字符[CLS]向量与其余的序列向量进行结合,采用注意力池化得以解决上述问题。
技术实现思路
在文本匹配任务中,BERT模型取得很好的表现,但仍存在训练时间较长、绝对位置编码未能表明句子中词与词间的相对位置和输出文本表示不能完全利用BERT模型输出的文本表示序列的问题,本专利技术提出了一种基于词嵌入、注意力池化(AveragePooling,AP)和相对位置编码(RelativePositionEmbedding,PRE)的改进BERT的文本匹配模型AP_REP_WordBERT;本专利技术的技术方案如下:方案一:改进BERT的文本语义匹配系统,该系统包括数据预处理子系统、BERT子系统;数据预处理子系统负责将获取的文本进行整理后传输到BERT模型子系统,由BERT模型子系统进行模型建立以及模型输出,最终由输出层子系统将模型进行改进后输出匹配结果。具体地,所述的数据预处理子系统包括文本获取模块、拼接模块和分词模块;所述BERT模型子系统包括输入表示层、编码层和输出层;所述输出层包括注意力池化模块和分类器。方案二:区别于现有BERT的文本语义匹配,改进BERT的文本语义匹配方法是以所述的系统为基础实现的,该方法通过建立所述传输层中的词嵌入机制、所述编码层的相对位置编码机制以及通过所述输出层对池化后的注意力机制处理文本,完成后续文本语义匹配;该方法具体步骤如下:步骤一,通过将所述文本获取模块输入文本并插入特殊元素向量,完成文本匹配任务的初始化操作;步骤二,所述拼接模块利用自注意力机制拼接主要向量;步骤三,所述分词模块利用词嵌入机制根据词粒度对切分文本向量,作为最后的分词结果;步骤四,利用相对位置编码机制对文本进行编码输出模型学习到的相对位置;步骤五,利用步骤一插入的特殊元素向量,与输出文本序列中其余输出向量序列进行注意力的池化方式计算;步骤六,利用分类器所包含的函数计算,完成文本语义匹配。进一步地,在步骤一中,文本匹配任务具体包含两部分:第一部分,将文本对进行拼接,对文本对中的第一个句子前加入特殊符号[CLS],在第一句话结尾加入特殊符号[SEP],再接入第二个句子,在第二句话结尾加入特殊符号[SEP],将拼接好的句子以字粒度对句子进行切分;第二部分,将每一个字的词向量、分段向量和位置向量进行作和作为最终输入BERT模型的向量表示。进一步地,步骤二中,所述自注意力机制,具体步骤如下:步骤二一,将当前字词的查询集合Q和每个键K进行相似度计算得到权重;步骤二二,使用Softmax函数对这些权重进行归一化处理;步骤二三,将权重和相应的值V进行加权求和得到最后的注意力结果。进一步地,步骤三中,所述自注意力机制,具体步骤如下:在步骤三中,所述的词嵌入机制具体步骤如下:步骤三一,将文本中的中文词添加到原来的词表中;步骤三二,输入一个句子先采用jieba分词工具进行分割一次,得到词序列wi,wi∈[w1,w2,...,wl];步骤三三,遍历wi,如果wi在词表中则保留,否则用BERT自带的分词函数再分一次;步骤三四,将每个wi的分词结果有序拼接起来作为最后的分词结果。进一步地,在步骤四中,所述的相对位置编码,指在自注意力机制中加入两组表示词与词之间关系的向量,并作为参数参与训练,具体步骤为:步骤四一,两组表示词与词之间关系的向量进行交互:步骤四二,计算注意力得分;步骤四三,进行加权,输出向量。进一步地,在步骤五中,所述相对位置编码依赖于二维坐标表示位置的编码方式,通过将多维向量转化为二维向量的相对位置,使相对位置编码在各层的自注意力机制中是共享的,无论在任何层的相对位置编码中表示都是位置与位置之间的相对信息。进一步地,在步骤六中,所述的分类器为多层感知器作文本语义匹配模型,该分类器由前向传播神经网络、Softmax归一化函数和Argmax最大索引函数三部分组成:所述前向传播神经网络共有两个隐藏层,第一隐藏层所有神经元与语义匹配表征向量v进行全连接,将v映射到高维语义空间中对其中包含的语义匹配信息进行分析;第二隐藏层中神经元与第一隐藏层所有神经元进行全连接,并分别输出代表语义不同的标签0和代表语义相同的标签1对应的激活值,得到一个二维激活向量;Softmax归一化函数对前向传播网络所得二维激活向量进行归一化处理,使向量中所有元素之和为1,得到一个二维预测向量;该向量即文本语义匹配模型对两个输入待匹配语句间同义关系所做的预测,向量中两个元素分别对应标签0和标签1的预测概率,并用于模型损失函数计算;Argmax最大索引函数对二维概率向量中两个元素的概率值进行比较,返回向本文档来自技高网
...

【技术保护点】
1.改进BERT的文本语义匹配系统,其特征在于:该系统包括数据预处理子系统、BERT子系统;数据预处理子系统负责将获取的文本进行整理后传输到BERT模型子系统,由BERT模型子系统进行模型建立以及模型输出,最终由输出层子系统将模型进行改进后输出匹配结果。/n

【技术特征摘要】
1.改进BERT的文本语义匹配系统,其特征在于:该系统包括数据预处理子系统、BERT子系统;数据预处理子系统负责将获取的文本进行整理后传输到BERT模型子系统,由BERT模型子系统进行模型建立以及模型输出,最终由输出层子系统将模型进行改进后输出匹配结果。


2.根据权利要求1所述的改进BERT的文本语义匹配系统,其特征在于:所述的数据预处理子系统包括文本获取模块、拼接模块和分词模块;所述BERT模型子系统包括输入表示层、编码层和输出层;所述输出层包括注意力池化模块和分类器。


3.改进BERT的文本语义匹配方法,区别于现有BERT的文本语义匹配,是根据权利要求1-2中任一一项所述的系统为基础实现的,其特征在于:该方法通过建立所述传输层中的词嵌入机制、所述编码层的相对位置编码机制以及通过所述输出层对池化后的注意力机制处理文本,完成后续文本语义匹配;该方法具体步骤如下:
步骤一,通过将所述文本获取模块输入文本并插入特殊元素向量,完成文本匹配任务的初始化操作;
步骤二,所述拼接模块利用自注意力机制拼接主要向量;
步骤三,所述分词模块利用词嵌入机制根据词粒度对切分文本向量,作为最后的分词结果;
步骤四,利用相对位置编码机制对文本进行编码输出模型学习到的相对位置;
步骤五,利用步骤一插入的特殊元素向量,与输出文本序列中其余输出向量序列进行注意力的池化方式计算;
步骤六,利用分类器所包含的函数计算,完成文本语义匹配。


4.根据权利要求3所述的改进BERT的文本语义匹配方法,其特征在于:在步骤一中,文本匹配任务具体包含两部分:
第一部分,将文本对进行拼接,对文本对中的第一个句子前加入特殊符号[CLS],在第一句话结尾加入特殊符号[SEP],再接入第二个句子,在第二句话结尾加入特殊符号[SEP],将拼接好的句子以字粒度对句子进行切分;
第二部分,将每一个字的词向量、分段向量和位置向量进行作和作为最终输入BERT模型的向量表示。


5.根据权利要求3所述的改进BERT的文本语义匹配方法,其特征在于:步骤二中,所述自注意力机制,具体步骤如下:
步骤二一,将当前字词的查询集合Q和每个键K进行相似度计算得到权重;
步骤二二,使用Softmax函数对这些权重进行归一化处理;
步骤二三,将权重和相应的值V进行加权求和得到最后的注意力结果。


6.根据权利要求3所述的改进BERT的文本语义匹配方法,其特征在于:步骤三中,所述自注...

【专利技术属性】
技术研发人员:王庆岩顾金铭殷楠楠谢金宝梁欣涛沈涛
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1