当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于深度学习的行业文本匹配模型方法及装置制造方法及图纸

技术编号:32903559 阅读:13 留言:0更新日期:2022-04-07 11:54
本发明专利技术公开了一种基于深度学习的行业文本匹配模型方法及装置,其中,该方法包括:获取预设个数的跨行业数据作为训练集以得到待匹配语句;输入基于深度学习的行业文本匹配模型NERB,经过数据预处理后分别输入优化后的预训练模型NEZHA、RoBERTa和ERNIE

【技术实现步骤摘要】
一种基于深度学习的行业文本匹配模型方法及装置


[0001]本专利技术涉及语义匹配
,特别涉及一种基于深度学习的行业文本匹配模型方法及装置。

技术介绍

[0002]随着互联网技术的迅速发展以及智能交互应用的广泛使用,便捷、轻快、即时已成为当下互联网社会的主要特征。在当下快节奏的学习工作中,各种社交工具、问答系统成为了人们越来越依赖的“必需品”,而这些不断推陈出新的智能交互应用以及各种社交工具与人类之间都有着共同的沟通桥梁——文字、语音、影像等等,其中最稳定、最主流的还是文字交流,而且主要是短文本交流。如何快速、准确的把握不同人群的语言特点是目前各大智能交互应用非常关心的问题,即系统如何要快速、准确地理解不同人群的输入文本含义,在此基础上才能做出正确的反应。使用搜索引擎进行问题输入时,系统自动匹配出的相似问题会自动呈现在用户面前。
[0003]比如人们使用互联网进行信息搜索、交易购物等学习生活时,针对同一个系统认定的标准问题,不同用户对该问题会有不同的表述方式,而为了适应互联网生态中的快捷方便性,不少线上购物平台都推出了诸如智能客服一类的自动回复系统,通过让用户选择与自己所提问题相近的选项或者根据用户的输入进行相似匹配后进行回复,但这类系统存在着可回复范围有限、无法准确识别疑问句及反问句等明显的不足,对于用户输入的请求,系统按照识别的相近语句进行自动回复的内容有很多不是用户真正想要的,因为很多系统并不能从语义的角度去理解用户的问题,进而无法准确判断用户对该问答系统的需求,从而降低一部分用户的学习和工作效率,对社会的发展和人们的日常生活造成不必要的麻烦,所以进一步完善自动问答系统的语义匹配功能、提高语义匹配的准确率显得尤为重要。
[0004]此外,不仅针对新兴互联网产业,越来越多的传统行业,如医疗、电力、银行、交通等实体行业,都在致力于开发属于本行业的问答系统。根据社会调查,不同的人们在上述公共场所或平台中遇到的问题大多数是相似的,同时这些问题具有被询问重复率高、表述方式多样而答案一致的特点,如果采用传统的人工服务台,当遇到用户高峰期时便容易出现服务饱和以及无法满足客户需求的情况,所以面对当下数据爆炸式增长的场景以及客户对数据的实时性需求,以人工为主的传统客服团队迫切需要自动问答系统的支持。
[0005]未来,这些行业的智能问答系统将不仅活跃在线下人们的实际生活中,其核心的语义匹配技术也会在该行业的搜索系统、知识库查询系统、智能线上客服等多方面发挥自己的作用。
[0006]为了解决上述存在的问题、提高问答系统的语义匹配的准确率,从而使客户在巨大信息量中快速准确的搜索出需要的信息,基于短文本语义相似度匹配的智能自动问答系统迅速发展,该方法是实现智能问答系统的重要支柱。根据深度学习算法,能充分理解客户的语义信息,同时智能问答系统是提供人与机器之间以自然语言交流的方式,它可以在快速、准确地分析并理解客户需求的前提下,向客户提供正确的答案,尤其是对于重复率较高
的常规短文本问题,具有高效率、方便快速的特点。
[0007]对于一个服务于千万级乃至亿级用户的系统在特别是随着深度学习的提出以及广泛应用,语言信息处理过程可以从传统的词语的向量空间转变到词语Embedding层向量空间,或者更加复杂的神经网络隐藏层空间中进行,这种方式很好地弥补了短文本在词向量空间中稀疏、噪音大等缺点,并且能够将无监督学习与监督学习过程无缝结合,为基于问答系统的自然语言处理开辟新的方向。
[0008]当前问答系统主要分为问句分析和答案匹配,本文所做的研究侧重于问句分析部分,在原有的问句关键词匹配基础上,丰富了对语义特征的提取和匹配功能。目前中文问句的语义相似度分析仍有很大的发展空间,本文从两方面展开研究,首先加强对问句语义信息的特征提取;另外提高两个问句的语义相似度匹配结果。从这两方面展开研究,在一定程度上解决了问答系统中存在的此类问题,进一步完善了系统功能,提升用户的使用体验,总的来说是一项有意义的研究。
[0009]经过调研发现,目前对于以英文为基础的自动问答系统来说,相关技术已经相对成熟,因为英文语法相对简单、分词也容易一些,而中文属于表意型语言,计算机需要根据机器语言理解语义和分析句法,存在一定的困难,从而导致中文问答系统的研究进展缓慢。传统的中文问答系统仅考虑语句字面意思,并未对实际的语义进行更深层的挖掘,从而很容易偏离正确答案。
[0010]适应于中文文本的语义相似度匹配算法,国内的研究情况主要包括以下几类:
[0011]基于知识库的文本相似度匹配:以参考语义词典How Net为主,可分为义项、义原和词语三种相似度计算。其中义原被定义为词典中最小的单位,其主要是根据How Net中词语在义原层次的距离来计算文本相似度。义项是根据词语来定的,每个词可以有一个或者多个义项,而义项又是由一个或者多个义原构成,因此义项的相似度计算,可以等同义原之间的相似度计算。根据所有义项的组合进行排序,取其中的最大值作为词语的相似度计算结果。
[0012]基于深度学习的文本相似度匹配:国内研究者Chen等人在Word2vec的基础上将单个字符串向量融入进词向量对匹配方法进行改进,提出了基于中文的字符特征增强模型,Yu等人基于拆分的方式提出了联合学习词嵌入模型,将每个单独的汉字拆成多个由偏旁部构成的独立字体,然后将独立字体向量和词向量进行融合。
[0013]基于BERT预训练模型的语义相似度匹配:国内研究者吴炎等人提出一种基于BERT模型(Bidirectional Encoder Representations from Transformers)的中文语义匹配算法。该算法将句子转换为特征向量表示,结合Attention机制,计算两个句子的语义相似度进行匹配。经过与传统的语义匹配模型BiLSTM(Bi

directional Long Short

Term Memory)、ESIM(Enhanced Sequential Inference Model)、BiMPM(Bilateral Multi

Perspective Matching)的对比实验,基于BERT的中文语义匹配算法在测试集上的表现均优于以上语义匹配模型的实验结果。
[0014]对基于知识库的文本相似度匹配算法来说,该方法过于依赖语料库,均需要上下文进行向量化描述,如果语料库中的重复语句过多,则会出现计算量过大、计算结果可能出现过于稀疏等问题。对基于深度学习的文本相似度匹配算法来说,该方法同样需要大量的专业数据进行网络训练,无法做到很好的行业可迁移性,此外限于网络层深、结构设计等其
他特点,导致传统的深度神经网络在对语义的理解能力上仍然发挥欠佳。对基于BERT预训练模型的语义相似度匹配算法来说,虽然该算法利用BERT模型替代常用的Word2vec模型进行句向量表示可以更好地表征上下文信息,但由于BERT模型在设计时没有考虑太多中文语料的特点,同时现有的训练数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的行业文本匹配模型方法,其特征在于,包括以下步骤:获取预设个数的跨行业数据作为训练集,以得到待匹配语句;将所述待匹配语句输入基于深度学习的行业文本匹配模型NERB,经过数据预处理后分别输入优化后的预训练模型NEZHA、RoBERTa和ERNIE

Gram;其中,所述优化后的预训练模型NEZHA,包括:对函数式相对位置编码、全词覆盖、混合精度训练和优化器的优化;基于所述优化后的预训练模型,经过所述优化后的预训练模型匹配后输出三个文本匹配结果;根据所述三个文本匹配结果进行综合判断,当存在任意两种文本匹配结果或三种文本匹配结果输出为相似时,所述行业文本匹配模型的输出结果判为相似,否则为不相似。2.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对函数式相对位置编码优化,包括:所述预训练模型NEZHA通过采用函数式相对位置编码,输出与注意力得分的计算涉及到相对位置的正弦函数,则函数式相对位置编码公式,如下所示:示:3.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对全词覆盖优化,包括:所述预训练模型NEZHA,采用全词覆盖策略,当一个汉字被覆盖时,属于同一个汉字的其他汉字都被一起覆盖。4.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对混合精度训练优化,包括:所述预训练模型NEZHA采用混合精度训练,在每次训练迭代中,将主权值舍入半精度浮点格式,并使用所述半精度浮点格式存储的权值、激活和梯度执行向前和向后传递;将所述梯度转换为单精度浮点格式,并使用所述单精度浮点格式梯度更新主权重。5.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对优化器优化,包括:所述预训练模型NEZHA采用LAMB优化器,自适应策略为所述LAMB优化器中的每个参数调整learning rate。6.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型RoBERTa,包括:多个模型参数量和训练数据;预先调整优化器超参数;所述预训练模型RoBERTa选取预设个数的训练样本数;去掉下一句预测任务,并且数据连续从一个文档中获得;使用动态掩码,通过复制一个训练样本得到多份数据,每份数据使用不同掩码,并加大复制的分数,每次向所述预训练模型RoBERTa输入一个序列时生成新的掩码模式;使用全词掩码。7.根据权利要求6所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型RoBERTa,还包括:文本编码,所述预训练模型RoBERTa,在文本编码过程中使用预设级别的byte的BPE词汇表训练,且不用对输入...

【专利技术属性】
技术研发人员:吴军王得强关立文
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1