一种文本匹配方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：26651024 阅读：17 留言：0更新日期：2020-12-09 00:51

本发明专利技术公开了一种文本匹配方法、装置、计算机设备及存储介质，涉及人工智能技术领域，方法包括：构建问句特征词集合QU和文本特征词集合QC，以及术语集合T；进行向量化处理得到特征向量QE以及术语向量TE；进行线性转换得到键矩阵K、查询矩阵Q和值矩阵V，以及矩阵K

全部详细技术资料下载

【技术实现步骤摘要】
一种文本匹配方法、装置、计算机设备及存储介质
本专利技术涉及人工智能
，特别涉及一种文本匹配方法、装置、计算机设备及存储介质。
技术介绍
近年来，基于transformer(Google团队在2017年提出的一种NLP经典模型)架构和海量数据的BERT(BidirectionalEncoderRepresentationfromTransformers和基于Transformer的双向编码器表征)模型在各种NLP(自然语言处理)应用中大放光彩。BERT本身支持两段文本输入的设计使得其能够很容易地应用与文本匹配任务。在智能问答的实际应用中，对每个用户问句来说，不同的词或短语，其重要性不同，这些比较重要的词、短语称为术语，往往与实际业务相关。但现有的处理方法，并未融合术语的重要性，比如用户问句为“XX公司现在有多少员工”，待匹配文本为“XX公司的薪酬福利体系是什么样的”，那么两者之间的“XX”一词也会有较大的注意力权重。而对待匹配文本来说，匹配上“薪酬”或者“福利”远比匹配上“XX”重要，故现有技术中的文本匹配方法在准确性方面还有待提高。
技术实现思路
本专利技术的目的是提供一种文本匹配方法、装置、计算机设备及存储介质，旨在解决现有文本匹配技术在准确性方面有待提高的问题。第一方面，本专利技术实施例提供一种基于术语增强的文本匹配方法，其包括：获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述...

【技术保护点】
1.一种基于术语增强的文本匹配方法，其特征在于，包括：/n获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；/n对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；/n对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K

【技术特征摘要】
1.一种基于术语增强的文本匹配方法，其特征在于，包括：
获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；
对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；
对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵KT；
计算所述矩阵KT与查询矩阵Q的非归一化权重矩阵AQT，然后对所述非归一化权重矩阵AQT进行自我相乘以及归一化处理得到多个子矩阵；
对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵
对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵计算得到自注意力模块的输出，再根据所述输出对所述用户问句与待匹配的文本进行匹配。

2.根据权利要求1所述的基于术语增强的文本匹配方法，其特征在于，所述获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T，包括：
获取用户问句以及待匹配文本；
对所述用户问句以及待匹配文本进行自然语言处理，分别得到用户问句中的所有特征词和待匹配文本中的所有特征词；
将用户问句中的所有特征词按顺序构建为问句特征词集合QU，将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC；
基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T。

3.根据权利要求1所述的基于术语增强的文本匹配方法，其特征在于，所述对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE，包括：
将所述文本特征词集合QC与问句特征词集合QU进行拼接，并采用分隔符SEP进行分隔，得到拼接集合Q＝[QC,SEP,QU]；
通过embedding查询，将所述拼接集合Q中的字符转换为相应的向量，得到特征向量QE；
通过embedding查询，将所述术语集合T中的字符转换为相应的向量，得到术语向量TE。

4.根据权利要求1所述的基于术语增强的文本匹配方法，其特征在于，所述对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵KT，包括：
利用已训练的权重矩阵WK、WQ和WV分别与所述特征向量QE进行矩阵相乘，得到三个形状相同的矩阵：键矩阵K、查询矩阵Q和值矩阵V；
利用已训练的权重矩阵WT与所述术语向量TE进行矩阵相乘，得到矩阵KT。

5.根据权利要求1所述的基于术语增强的文本匹配方法，其...

【专利技术属性】
技术研发人员：赵知纬，高维国，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人